論文の概要: VividListener: Expressive and Controllable Listener Dynamics Modeling for Multi-Modal Responsive Interaction
- arxiv url: http://arxiv.org/abs/2504.21718v1
- Date: Wed, 30 Apr 2025 15:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.782373
- Title: VividListener: Expressive and Controllable Listener Dynamics Modeling for Multi-Modal Responsive Interaction
- Title(参考訳): VividListener:マルチモーダル応答相互作用のための表現的・制御可能なリスナーダイナミクスモデリング
- Authors: Shiying Li, Xingqun Qi, Bingkun Yang, Chen Weile, Zezhao Tian, Muyi Sun, Qifeng Liu, Man Zhang, Zhenan Sun,
- Abstract要約: 提案するVividListenerは,細粒度,表現性,制御性を備えたリスナの動的モデリングを実現する新しいフレームワークである。
VividListenerは最先端のパフォーマンスを実現し、表現力と制御性のあるリスナのダイナミクスを実現する。
- 参考スコア(独自算出の注目度): 31.307004436877587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating responsive listener head dynamics with nuanced emotions and expressive reactions is crucial for practical dialogue modeling in various virtual avatar animations. Previous studies mainly focus on the direct short-term production of listener behavior. They overlook the fine-grained control over motion variations and emotional intensity, especially in long-sequence modeling. Moreover, the lack of long-term and large-scale paired speaker-listener corpora including head dynamics and fine-grained multi-modality annotations (e.g., text-based expression descriptions, emotional intensity) also limits the application of dialogue modeling.Therefore, we first newly collect a large-scale multi-turn dataset of 3D dyadic conversation containing more than 1.4M valid frames for multi-modal responsive interaction, dubbed ListenerX. Additionally, we propose VividListener, a novel framework enabling fine-grained, expressive and controllable listener dynamics modeling. This framework leverages multi-modal conditions as guiding principles for fostering coherent interactions between speakers and listeners.Specifically, we design the Responsive Interaction Module (RIM) to adaptively represent the multi-modal interactive embeddings. RIM ensures the listener dynamics achieve fine-grained semantic coordination with textual descriptions and adjustments, while preserving expressive reaction with speaker behavior. Meanwhile, we design the Emotional Intensity Tags (EIT) for emotion intensity editing with multi-modal information integration, applying to both text descriptions and listener motion amplitude.Extensive experiments conducted on our newly collected ListenerX dataset demonstrate that VividListener achieves state-of-the-art performance, realizing expressive and controllable listener dynamics.
- Abstract(参考訳): 様々な仮想アバターアニメーションにおける現実的な対話モデリングには,応答性のあるリスナーヘッドダイナミクスとニュアンスな感情と表現的反応の生成が不可欠である。
従来の研究は主にリスナー行動の短期的生産に焦点を当てていた。
彼らは、特にロングシーケンス・モデリングにおいて、動きの変化と感情の強さに対するきめ細かい制御を見落としている。
さらに,ヘッドダイナミックスや微粒なマルチモーダルアノテーション(テキストベースの表現記述,感情強度など)を含む長期的かつ大規模にペアリングされた話者-リスナーコーパスの欠如により,対話モデルの適用も制限され,従来はリスナーX(ListenerX)と呼ばれる多モーダル応答性相互作用のための1.4万以上の有効なフレームを含む3次元対話の大規模マルチターンデータセットを新たに収集した。
さらに,細粒度,表現性,制御性を持ったリスナの動的モデリングを可能にする新しいフレームワークであるVividListenerを提案する。
本フレームワークは,マルチモーダルな対話型埋め込みを適応的に表現する応答型対話モジュール(RIM)を設計し,話者とリスナーのコヒーレントな相互作用を促進するための指針として,マルチモーダルな条件を利用する。
RIMは、話者の振る舞いと表現的な反応を保ちながら、聞き手のダイナミクスがテキスト記述や調整と微妙なセマンティックコーディネートを達成することを保証している。
一方,マルチモーダル情報統合による感情強度編集のための感情強度タグ (EIT) を設計し,テキスト記述とリスナー運動振幅の両方に適用した。
関連論文リスト
- Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。
音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation [9.741109135330262]
話者とリスナーの動的変換の相関をモデル化することにより,非言語対応型リスナーヘッドを合成することを目的とする。
ユーザフレンドリーなフレームワークであるCustomListenerを提案する。
論文 参考訳(メタデータ) (2024-03-01T04:31:56Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Speaker-Guided Encoder-Decoder Framework for Emotion Recognition in
Conversation [23.93696773727978]
会話における感情認識は,会話中の発話の感情ラベルを予測することを目的としている。
動的に話者内および話者間依存関係を協調的に探索する新しい話者モデリング手法を設計する。
また、感情の復号化に話者情報を完全に活用する、ERCのための話者ガイドデコーダ(SGED)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-07T10:51:47Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。