論文の概要: InteracTalker: Prompt-Based Human-Object Interaction with Co-Speech Gesture Generation
- arxiv url: http://arxiv.org/abs/2512.12664v1
- Date: Sun, 14 Dec 2025 12:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.371331
- Title: InteracTalker: Prompt-Based Human-Object Interaction with Co-Speech Gesture Generation
- Title(参考訳): InteracTalker: Promptベースのヒューマンオブジェクトインタラクションと音声ジェスチャ生成
- Authors: Sreehari Rajan, Kunal Bhosikar, Charu Sharma,
- Abstract要約: 我々は,対話型音声生成と対話型音声対話をシームレスに統合する新しいフレームワークであるInteracTalkerを紹介する。
本フレームワークは,動作条件に適応して独立したトレーニングを可能にする汎用モーション適応モジュールを利用する。
InteracTalkerは、これらの以前分離されたタスクをうまく統合し、音声のジェスチャー生成とオブジェクト-インタラクション合成の両方において、従来の手法より優れている。
- 参考スコア(独自算出の注目度): 1.7523719472700858
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating realistic human motions that naturally respond to both spoken language and physical objects is crucial for interactive digital experiences. Current methods, however, address speech-driven gestures or object interactions independently, limiting real-world applicability due to a lack of integrated, comprehensive datasets. To overcome this, we introduce InteracTalker, a novel framework that seamlessly integrates prompt-based object-aware interactions with co-speech gesture generation. We achieve this by employing a multi-stage training process to learn a unified motion, speech, and prompt embedding space. To support this, we curate a rich human-object interaction dataset, formed by augmenting an existing text-to-motion dataset with detailed object interaction annotations. Our framework utilizes a Generalized Motion Adaptation Module that enables independent training, adapting to the corresponding motion condition, which is then dynamically combined during inference. To address the imbalance between heterogeneous conditioning signals, we propose an adaptive fusion strategy, which dynamically reweights the conditioning signals during diffusion sampling. InteracTalker successfully unifies these previously separate tasks, outperforming prior methods in both co-speech gesture generation and object-interaction synthesis, outperforming gesture-focused diffusion methods, yielding highly realistic, object-aware full-body motions with enhanced realism, flexibility, and control.
- Abstract(参考訳): 音声言語と物理オブジェクトの両方に自然に反応するリアルな人間の動きを生成することは、インタラクティブなデジタル体験に不可欠である。
しかし、現在の方法では、音声駆動のジェスチャーやオブジェクトの相互作用を独立して扱うことができ、統合された包括的なデータセットが欠如しているため、現実の応用性が制限される。
この問題を解決するために,対話型音声生成と対話型音声対話をシームレスに統合する新しいフレームワークであるInteracTalkerを紹介する。
複数段階の学習プロセスを用いて、統合された動き、音声、埋め込み空間の学習を行う。
これをサポートするために,既存のテキスト・ツー・モーション・データセットを詳細なオブジェクト・インタラクション・アノテーションで拡張したリッチ・オブジェクト・インタラクション・データセットをキュレートする。
我々のフレームワークは、独立トレーニングを可能にする汎用モーション適応モジュールを使用して、対応する動作条件に適応し、推論中に動的に結合する。
不均一な条件信号の不均衡に対処するため,拡散サンプリング時に動的に条件信号を再重み付けする適応型融合戦略を提案する。
InteracTalkerは、これらの従来のタスクを統一し、音声のジェスチャー生成とオブジェクト-インタラクション合成の両方において先行手法より優れ、ジェスチャー中心の拡散方法より優れ、リアル性、柔軟性、制御性を高めたオブジェクト認識フルボディモーションを得る。
関連論文リスト
- MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - A Unified Framework for Motion Reasoning and Generation in Human Interaction [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion-Languageモデルを提案する。
VIMは、動きとテキストのモダリティの両方を同時に理解し、生成することができる。
我々は,動画像のテキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト)、反応生成,動作編集,および動作系列の推論を含む複数の対話的動作関連タスク
論文 参考訳(メタデータ) (2024-10-08T02:23:53Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。