Fugu-MT 論文翻訳(概要): ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

論文の概要: ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

arxiv url: http://arxiv.org/abs/2603.15083v1
Date: Mon, 16 Mar 2026 10:37:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:58.014035
Title: ReactMotion: Generating Reactive Listener Motions from Speaker Utterance
Title（参考訳）: ReactMotion: 話者の発話からリアクティブリスナーの動きを生成する
Authors: Cheng Luo, Bizhu Wu, Bing Li, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen, Bernard Ghanem,
Abstract要約: 話者発話からのリアクティブリスナー運動生成は、話者の発話に適切に反応する自然主義的リスナー身体運動を生成することを目的としている。提案するReactMotionNetは、話者発話と複数の候補リスナーの動きを、適切な度合いでアノテートする大規模データセットである。テキスト,音声,感情,動きを共同でモデル化する統合生成フレームワークであるReactMotionを提案する。
参考スコア（独自算出の注目度）: 93.89117265072464
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we introduce a new task, Reactive Listener Motion Generation from Speaker Utterance, which aims to generate naturalistic listener body motions that appropriately respond to a speaker's utterance. However, modeling such nonverbal listener behaviors remains underexplored and challenging due to the inherently non-deterministic nature of human reactions. To facilitate this task, we present ReactMotionNet, a large-scale dataset that pairs speaker utterances with multiple candidate listener motions annotated with varying degrees of appropriateness. This dataset design explicitly captures the one-to-many nature of listener behavior and provides supervision beyond a single ground-truth motion. Building on this dataset design, we develop preference-oriented evaluation protocols tailored to evaluate reactive appropriateness, where conventional motion metrics focusing on input-motion alignment ignore. We further propose ReactMotion, a unified generative framework that jointly models text, audio, emotion, and motion, and is trained with preference-based objectives to encourage both appropriate and diverse listener responses. Extensive experiments show that ReactMotion outperforms retrieval baselines and cascaded LLM-based pipelines, generating more natural, diverse, and appropriate listener motions.
Abstract（参考訳）: 本稿では,話者の発話に適切に反応する自然主義的リスナー体の動きを生成することを目的とした,話者発話からのリアクティブリスナー運動生成というタスクを紹介する。しかし、そのような非言語的リスナーの振る舞いのモデル化は、人間反応の本質的に非決定論的性質のため、まだ未熟で挑戦的である。提案するReactMotionNetは、話者発話と複数の候補リスナーの動きを、適切な度合いでアノテートする大規模データセットである。このデータセット設計は、リスナーの行動の1対多の性質を明示的に捉え、単一の地道運動を越えて監督する。このデータセット設計に基づいて,従来の動作指標が入力-動きのアライメントを無視する場合の,反応の適切性を評価するための嗜好指向評価プロトコルを開発する。さらに、テキスト、音声、感情、動きを共同でモデル化する統合生成フレームワークであるReactMotionを提案し、適切なリスナ応答と多様なリスナ応答の両方を促進するために、好みに基づいた目標をトレーニングする。大規模な実験の結果、ReactMotionは検索ベースラインやLLMベースのパイプラインよりも優れており、より自然で多様性があり、適切なリスナの動きを生成する。

関連論文リスト

MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。 2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-09-28T14:31:41Z)
Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
VividListener: Expressive and Controllable Listener Dynamics Modeling for Multi-Modal Responsive Interaction [31.307004436877587]
提案するVividListenerは,細粒度,表現性,制御性を備えたリスナの動的モデリングを実現する新しいフレームワークである。 VividListenerは最先端のパフォーマンスを実現し、表現力と制御性のあるリスナのダイナミクスを実現する。
論文参考訳（メタデータ） (2025-04-30T15:05:12Z)
Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2024-03-14T03:21:33Z)
CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation [9.741109135330262]
話者とリスナーの動的変換の相関をモデル化することにより,非言語対応型リスナーヘッドを合成することを目的とする。ユーザフレンドリーなフレームワークであるCustomListenerを提案する。
論文参考訳（メタデータ） (2024-03-01T04:31:56Z)
Emotional Listener Portrait: Realistic Listener Motion Simulation in Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。 ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文参考訳（メタデータ） (2023-09-29T18:18:32Z)
Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文参考訳（メタデータ） (2023-08-21T17:59:02Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。