論文の概要: Inter-Diffusion Generation Model of Speakers and Listeners for Effective Communication
- arxiv url: http://arxiv.org/abs/2505.04996v1
- Date: Thu, 08 May 2025 07:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.781295
- Title: Inter-Diffusion Generation Model of Speakers and Listeners for Effective Communication
- Title(参考訳): 効果的なコミュニケーションのための話者と聞き手の拡散間生成モデル
- Authors: Jinhe Huang, Yongkang Cheng, Yuming Hang, Gaoge Han, Jinewei Li, Jing Zhang, Xingjian Gu,
- Abstract要約: 本稿では,効果的なコミュニケーションのための話者と聞き手の拡散間生成モデルを提案する。
初めて、リスナーのフルボディジェスチャーを生成フレームワークに統合する。
- 参考スコア(独自算出の注目度): 4.49451692966442
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Full-body gestures play a pivotal role in natural interactions and are crucial for achieving effective communication. Nevertheless, most existing studies primarily focus on the gesture generation of speakers, overlooking the vital role of listeners in the interaction process and failing to fully explore the dynamic interaction between them. This paper innovatively proposes an Inter-Diffusion Generation Model of Speakers and Listeners for Effective Communication. For the first time, we integrate the full-body gestures of listeners into the generation framework. By devising a novel inter-diffusion mechanism, this model can accurately capture the complex interaction patterns between speakers and listeners during communication. In the model construction process, based on the advanced diffusion model architecture, we innovatively introduce interaction conditions and the GAN model to increase the denoising step size. As a result, when generating gesture sequences, the model can not only dynamically generate based on the speaker's speech information but also respond in realtime to the listener's feedback, enabling synergistic interaction between the two. Abundant experimental results demonstrate that compared with the current state-of-the-art gesture generation methods, the model we proposed has achieved remarkable improvements in the naturalness, coherence, and speech-gesture synchronization of the generated gestures. In the subjective evaluation experiments, users highly praised the generated interaction scenarios, believing that they are closer to real life human communication situations. Objective index evaluations also show that our model outperforms the baseline methods in multiple key indicators, providing more powerful support for effective communication.
- Abstract(参考訳): 全体ジェスチャーは、自然な相互作用において重要な役割を担い、効果的なコミュニケーションを実現するために重要である。
しかしながら、既存のほとんどの研究は、主に話者のジェスチャー生成に焦点を当てており、対話プロセスにおけるリスナーの不可欠な役割を見落とし、それら間の動的相互作用を完全に探求することができない。
本稿では,効果的コミュニケーションのための話者と聞き手の拡散間生成モデルを提案する。
初めて、リスナーのフルボディジェスチャーを生成フレームワークに統合する。
新たな拡散機構を考案することにより、このモデルはコミュニケーション中に話者とリスナーの間の複雑な相互作用パターンを正確に捉えることができる。
モデル構築プロセスでは,高度な拡散モデルアーキテクチャに基づいて,対話条件とGANモデルを革新的に導入し,デノナイジングステップのサイズを拡大する。
その結果、ジェスチャシーケンスを生成する際には、話者の音声情報に基づいて動的に生成するだけでなく、リスナーのフィードバックにリアルタイムで応答し、両者の相乗的相互作用を可能にする。
その結果,現在最先端のジェスチャー生成手法と比較して,提案したモデルが生成したジェスチャーの自然性,コヒーレンス,音声・ジェスチャー同期において顕著な改善を達成していることがわかった。
主観評価実験において,ユーザは実生活の人間コミュニケーションの状況に近いと信じながら,生成された対話シナリオを高く評価した。
客観的指標評価は,複数のキーインジケータにおいて,ベースライン手法よりも優れた性能を示し,効果的なコミュニケーションを支援する。
関連論文リスト
- PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication [17.294279444027563]
本稿では,人間のコミュニケーションに焦点をあてた革新的なタスクを紹介し,話者と聴取者の両方に対して3次元の全体的人間の動きを生成することを目的とする。
話者とリスナーのリアルタイム相互影響を考察し,新しい連鎖型トランスフォーマーに基づく自己回帰モデルを提案する。
提案手法は,2つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-03-28T14:47:32Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face
Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。
この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。
我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文 参考訳(メタデータ) (2022-07-10T23:31:27Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。