Fugu-MT 論文翻訳(概要): Dyadic Interaction Modeling for Social Behavior Generation

論文の概要: Dyadic Interaction Modeling for Social Behavior Generation

arxiv url: http://arxiv.org/abs/2403.09069v1
Date: Thu, 14 Mar 2024 03:21:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 21:57:10.121100
Title: Dyadic Interaction Modeling for Social Behavior Generation
Title（参考訳）: 社会的行動生成のための動的相互作用モデリング
Authors: Minh Tran, Di Chang, Maksim Siniukov, Mohammad Soleymani,
Abstract要約: 本稿では,ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。既存の作業では、リスナーは話者の声や顔の動きに対する反射的な振る舞いを持つ反応剤であると考えられている。我々のフレームワークの核心はDyadic Interaction Modeling (DIM)であり、これは話者の動作とリスナーの動きを共同でモデル化する事前学習のアプローチである。
参考スコア（独自算出の注目度）: 6.626277726145613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human-human communication is like a delicate dance where listeners and speakers concurrently interact to maintain conversational dynamics. Hence, an effective model for generating listener nonverbal behaviors requires understanding the dyadic context and interaction. In this paper, we present an effective framework for creating 3D facial motions in dyadic interactions. Existing work consider a listener as a reactive agent with reflexive behaviors to the speaker's voice and facial motions. The heart of our framework is Dyadic Interaction Modeling (DIM), a pre-training approach that jointly models speakers' and listeners' motions through masking and contrastive learning to learn representations that capture the dyadic context. To enable the generation of non-deterministic behaviors, we encode both listener and speaker motions into discrete latent representations, through VQ-VAE. The pre-trained model is further fine-tuned for motion generation. Extensive experiments demonstrate the superiority of our framework in generating listener motions, establishing a new state-of-the-art according to the quantitative measures capturing the diversity and realism of generated motions. Qualitative results demonstrate the superior capabilities of the proposed approach in generating diverse and realistic expressions, eye blinks and head gestures.
Abstract（参考訳）: 人間と人間のコミュニケーションは、リスナーと話者が同時に対話して会話のダイナミクスを維持する、繊細なダンスのようなものです。したがって、リスナー非言語行動を生成する効果的なモデルには、ダイアドの文脈と相互作用を理解する必要がある。本稿では,ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。既存の作業では、リスナーは話者の声や顔の動きに対する反射的な振る舞いを持つ反応剤であると考えられている。我々のフレームワークの核心はDyadic Interaction Modeling (DIM) である。これは、Dyadicコンテキストをキャプチャする表現を学ぶために、マスキングと対照的な学習を通じて、話者とリスナーの動作を共同でモデル化する訓練前のアプローチである。非決定論的行動の生成を可能にするため、VQ-VAEを介してリスナーと話者の動作を個別の潜在表現に符号化する。事前訓練されたモデルは、モーション生成のためにさらに微調整される。広範にわたる実験は, 聴取者の動作生成における枠組みの優位性を実証し, 生成した動きの多様性とリアリズムを定量的に把握し, 新たな最先端技術を確立した。定性的な結果は、多様で現実的な表現、目まき、頭部ジェスチャーの生成における提案手法の優れた能力を示している。

関連論文リスト

MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。 MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文参考訳（メタデータ） (2026-03-03T18:59:51Z)
TAVID: Text-Driven Audio-Visual Interactive Dialogue Generation [72.46711449668814]
本稿では,対話型顔と会話型音声の両方を同期的に生成する統合フレームワークであるTAVIDを紹介する。本システムの評価は, 顔のリアリズム, 頭部の応答性, ダイアディック相互作用, 音声品質の4つの側面にまたがる。
論文参考訳（メタデータ） (2025-12-23T12:04:23Z)
Social Agent: Mastering Dyadic Nonverbal Behavior Generation via Conversational LLM Agents [13.902411927285328]
ソーシャルエージェント(Social Agent)は、現実的で文脈的に適切な非言語行為をダイアディック会話で合成するための新しいフレームワークである。本研究では,Large Language Model (LLM) によって駆動されるエージェントシステムを構築し,会話の流れを指示し,双方の参加者に対して適切な対話行動を決定する。本稿では,音声信号から協調した動きを合成する自己回帰拡散モデルに基づく,新しい対人ジェスチャ生成モデルを提案する。
論文参考訳（メタデータ） (2025-10-06T09:41:37Z)
Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
Inter-Diffusion Generation Model of Speakers and Listeners for Effective Communication [4.49451692966442]
本稿では,効果的なコミュニケーションのための話者と聞き手の拡散間生成モデルを提案する。初めて、リスナーのフルボディジェスチャーを生成フレームワークに統合する。
論文参考訳（メタデータ） (2025-05-08T07:00:58Z)
VividListener: Expressive and Controllable Listener Dynamics Modeling for Multi-Modal Responsive Interaction [31.307004436877587]
提案するVividListenerは,細粒度,表現性,制御性を備えたリスナの動的モデリングを実現する新しいフレームワークである。 VividListenerは最先端のパフォーマンスを実現し、表現力と制御性のあるリスナのダイナミクスを実現する。
論文参考訳（メタデータ） (2025-04-30T15:05:12Z)
INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations [11.101103116878438]
本稿では,Dyadic インタラクションのための新しい音声駆動型ヘッド生成フレームワーク INFP を提案する。 INFPは、モーションベースヘッドイミテーションステージとオーディオガイドモーションジェネレーションステージで構成される。このような研究を円滑に進めるために,インターネットから収集したリッチな対話の大規模データセットであるDyConvを紹介した。
論文参考訳（メタデータ） (2024-12-05T10:20:34Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
A Grammatical Compositional Model for Video Action Detection [24.546886938243393]
典型的なAnd-Orグラフに基づく行動検出のための新しい文法合成モデル(GCM)を提案する。本モデルは,文法モデルの構成性とDNNのリッチな特徴を表現する能力の両面を活用するために,階層的な動作の固有構造と潜時的関係を利用する。
論文参考訳（メタデータ） (2023-10-04T15:24:00Z)
Emotional Listener Portrait: Realistic Listener Motion Simulation in Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。 ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文参考訳（メタデータ） (2023-09-29T18:18:32Z)
MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文参考訳（メタデータ） (2023-06-27T07:24:32Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文参考訳（メタデータ） (2022-07-10T23:31:27Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。 VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文参考訳（メタデータ） (2021-12-08T09:49:28Z)
Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation of Facial Gestures in Dyadic Settings [11.741529272872219]
より自然な対面インタラクションを可能にするために、会話エージェントは、彼らの振る舞いをインターロケータに適応させる必要がある。既存のジェスチャ生成システムの多くは、非言語的振る舞いを合成する際に、インターロカタからのマルチモーダルキューを使用しない。本稿では,対話における顔のジェスチャーを対話的に合成する確率的手法を提案する。
論文参考訳（メタデータ） (2020-06-11T14:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。