論文の概要: ReactDiff: Latent Diffusion for Facial Reaction Generation
- arxiv url: http://arxiv.org/abs/2505.14151v1
- Date: Tue, 20 May 2025 10:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.047889
- Title: ReactDiff: Latent Diffusion for Facial Reaction Generation
- Title(参考訳): ReactDiff: 顔反応生成のための潜伏拡散
- Authors: Jiaming Li, Sheng Wang, Xin Wang, Yitao Zhu, Honglin Xiong, Zixu Zhuang, Qian Wang,
- Abstract要約: 話者の音声・視覚的クリップを考えると、顔反応生成はリスナーの顔反応を予測することを目的としている。
本稿では,多モード変換器と条件拡散を統合した顔反応拡散(ReactDiff)フレームワークを提案する。
実験の結果、ReactDiffは既存のアプローチよりも大幅に優れており、顔反応の相関は0.26、多様性のスコアは0.094である。
- 参考スコア(独自算出の注目度): 15.490774894749277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the audio-visual clip of the speaker, facial reaction generation aims to predict the listener's facial reactions. The challenge lies in capturing the relevance between video and audio while balancing appropriateness, realism, and diversity. While prior works have mostly focused on uni-modal inputs or simplified reaction mappings, recent approaches such as PerFRDiff have explored multi-modal inputs and the one-to-many nature of appropriate reaction mappings. In this work, we propose the Facial Reaction Diffusion (ReactDiff) framework that uniquely integrates a Multi-Modality Transformer with conditional diffusion in the latent space for enhanced reaction generation. Unlike existing methods, ReactDiff leverages intra- and inter-class attention for fine-grained multi-modal interaction, while the latent diffusion process between the encoder and decoder enables diverse yet contextually appropriate outputs. Experimental results demonstrate that ReactDiff significantly outperforms existing approaches, achieving a facial reaction correlation of 0.26 and diversity score of 0.094 while maintaining competitive realism. The code is open-sourced at \href{https://github.com/Hunan-Tiger/ReactDiff}{github}.
- Abstract(参考訳): 話者の音声・視覚的クリップを考えると、顔反応生成はリスナーの顔反応を予測することを目的としている。
課題は、ビデオとオーディオの関連性を捉えながら、適切性、リアリズム、多様性のバランスをとることだ。
以前の研究は主に単モーダルな入力や単純化された反応マッピングに焦点を当てていたが、PerFRDiffのような最近のアプローチでは、多モーダルな入力と適切な反応マッピングの1対多の性質について検討している。
本研究では,多モード変換器を独立に結合した顔反応拡散(ReactDiff)フレームワークを提案する。
既存の方法とは異なり、ReactDiffはクラス内およびクラス間の注意をきめ細かなマルチモーダルインタラクションに利用し、エンコーダとデコーダ間の遅延拡散プロセスは、多種多様かつ文脈的に適切な出力を可能にする。
実験の結果、ReactDiffは既存のアプローチよりも優れており、顔反応の相関は0.26、多様性のスコアは0.094であり、競合リアリズムを維持している。
コードは \href{https://github.com/Hunan-Tiger/ReactDiff}{github} でオープンソース化されている。
関連論文リスト
- Latent Behavior Diffusion for Sequential Reaction Generation in Dyadic Setting [11.016004057765185]
ダイアド反応生成タスクは、会話相手の行動と密接に一致した反応反応を伴う。
本稿では,文脈認識型オートエンコーダと拡散型条件生成器を組み合わせた新しい手法である潜時行動拡散モデルを提案する。
実験により, 従来の手法と比較して, 動的反応合成タスクにおいて, 優れた性能を実現するためのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2025-05-12T09:22:27Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。
最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。
提案手法は, 対実的相互モダリティ推論法である。
論文 参考訳(メタデータ) (2023-08-10T15:45:45Z) - ReactFace: Online Multiple Appropriate Facial Reaction Generation in Dyadic Interactions [46.66378299720377]
ダイアドインタラクションでは、聴取者の顔反応を予測することは困難であり、同じ話者の振る舞いに応じて異なる反応が適している可能性がある。
本稿では,外挿や予測問題としてタスクを再構築し,複数の異なる顔反応を生成する新しいフレームワーク(ReactFace)を提案する。
論文 参考訳(メタデータ) (2023-05-25T05:55:53Z) - Reversible Graph Neural Network-based Reaction Distribution Learning for
Multiple Appropriate Facial Reactions Generation [22.579200870471475]
本稿では,最初の複数顔反応生成フレームワークを提案する。
顔の反応生成問題を1対1のマッピング問題として再定式化する。
実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。
論文 参考訳(メタデータ) (2023-05-24T15:56:26Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。