論文の概要: ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body
- arxiv url: http://arxiv.org/abs/2512.14234v1
- Date: Tue, 16 Dec 2025 09:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.6645
- Title: ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body
- Title(参考訳): ViBES: 行動知能な3D仮想体を持つ会話エージェント
- Authors: Juze Zhang, Changan Chen, Xin Chen, Heng Yu, Tiange Xiang, Ali Sartaz Khan, Shrinidhi K. Lakshmikanth, Ehsan Adeli,
- Abstract要約: ViBES(Voice in Behavioral Expression and Synchrony)は、言語と運動を共同で計画する対話型3Dエージェントである。
ViBESは、言語、韻律、運動が共同生成されるエージェント仮想体への「音声条件の運動生成」を越えている。
- 参考スコア(独自算出の注目度): 25.087113475162592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human communication is inherently multimodal and social: words, prosody, and body language jointly carry intent. Yet most prior systems model human behavior as a translation task co-speech gesture or text-to-motion that maps a fixed utterance to motion clips-without requiring agentic decision-making about when to move, what to do, or how to adapt across multi-turn dialogue. This leads to brittle timing, weak social grounding, and fragmented stacks where speech, text, and motion are trained or inferred in isolation. We introduce ViBES (Voice in Behavioral Expression and Synchrony), a conversational 3D agent that jointly plans language and movement and executes dialogue-conditioned body actions. Concretely, ViBES is a speech-language-behavior (SLB) model with a mixture-of-modality-experts (MoME) backbone: modality-partitioned transformer experts for speech, facial expression, and body motion. The model processes interleaved multimodal token streams with hard routing by modality (parameters are split per expert), while sharing information through cross-expert attention. By leveraging strong pretrained speech-language models, the agent supports mixed-initiative interaction: users can speak, type, or issue body-action directives mid-conversation, and the system exposes controllable behavior hooks for streaming responses. We further benchmark on multi-turn conversation with automatic metrics of dialogue-motion alignment and behavior quality, and observe consistent gains over strong co-speech and text-to-motion baselines. ViBES goes beyond "speech-conditioned motion generation" toward agentic virtual bodies where language, prosody, and movement are jointly generated, enabling controllable, socially competent 3D interaction. Code and data will be made available at: ai.stanford.edu/~juze/ViBES/
- Abstract(参考訳): 人間のコミュニケーションは本質的にマルチモーダルで社会的であり、言葉、韻律、ボディランゲージは共同で意図を伝達する。
しかし、ほとんどの以前のシステムは、人間の振る舞いを、固定された発話を動画クリップにマッピングする翻訳タスクやテキスト・トゥ・ムーブメントとしてモデル化している。
このことは、不安定なタイミング、弱い社会的基盤、スピーチ、テキスト、動きを個別に訓練または推論する断片化されたスタックに繋がる。
対話型3DエージェントViBES(Voice in Behavioral Expression and Synchrony)を紹介する。
具体的には、ViBESは、モダリティ・エキスパート(MoME)バックボーンを混合した音声言語行動(SLB)モデルである。
モデルは、クロスエキスパートの注意を通して情報を共有しながら、モダリティによるハードルーティング(パラメータは専門家ごとに分割される)でインターリーブされたマルチモーダルトークンストリームを処理する。
このエージェントは、強い事前訓練された音声-言語モデルを活用することで、会話の途中で話し、タイプし、ボディアクションディレクティブを発行し、システムはストリーミング応答のための制御可能な動作フックを公開することができる。
さらに、対話・動きのアライメントと行動品質の自動測定によるマルチターン会話のベンチマークを行い、強い音声とテキスト・トゥ・モーションのベースラインに対して一貫した利得を観察する。
ViBESは、言語、韻律、運動が共同で生成され、制御可能で社会的に有能な3Dインタラクションを可能にするエージェント仮想体への「音声条件のモーションジェネレーション」を越えている。
ai.stanford.edu/~juze/ViBES/
関連論文リスト
- ImaGGen: Zero-Shot Generation of Co-Speech Semantic Gestures Grounded in Language and Image Input [0.0]
本稿では, 音声合成における中核的な課題として, 言語発話にセマンティックに一貫性のある, 象徴的, あるいは難解なジェスチャーを生成することを挙げる。
我々は、与えられた言語入力からジェスチャーを生成するゼロショットシステムを導入し、さらに手動のアノテーションや人間の介入なしに、想像的な入力によって通知される。
本結果は,表現的かつ協調的な仮想エージェントやアバターを作成する上で,文脈認識型セマンティックジェスチャの重要性を強調した。
論文 参考訳(メタデータ) (2025-10-20T15:01:56Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - MotionChain: Conversational Motion Controllers via Multimodal Prompts [25.181069337771127]
我々は,マルチモーダルプロンプトによる連続的,長期的人間の動作を生成する対話型ヒューマンモーションコントローラであるMotionChainを紹介する。
大規模言語、視覚言語、視覚運動データを活用することで、MotionChainは、マルチターン会話で各命令を理解し、それに続く人間の動きを生成する。
論文 参考訳(メタデータ) (2024-04-02T07:09:29Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。