論文の概要: Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars
- arxiv url: http://arxiv.org/abs/2602.01538v1
- Date: Mon, 02 Feb 2026 02:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.843126
- Title: Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars
- Title(参考訳): アバターを相互作用させる: 可制御性アバターのためのテキスト駆動型ヒューマンオブジェクトインタラクションを目指して
- Authors: Youliang Zhang, Zhengguang Zhou, Zhentao Yu, Ziyao Huang, Teng Hu, Sen Liang, Guozhen Zhang, Ziqiao Peng, Shunkai Li, Yi Chen, Zixiang Zhou, Yuan Zhou, Qinglin Lu, Xiu Li,
- Abstract要約: 既存の方法では、単純な人間の動きで全身の会話アバターを生成することができる。
この課題は、GHOI世代における環境認識と制御品質ジレンマの必要性に起因している。
本稿では,人間と物体の相互作用に対する映像合成から知覚と計画を分離する,新しい双方向ストリームフレームワークであるInteractAvatarを提案する。
- 参考スコア(独自算出の注目度): 32.76524805419984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating talking avatars is a fundamental task in video generation. Although existing methods can generate full-body talking avatars with simple human motion, extending this task to grounded human-object interaction (GHOI) remains an open challenge, requiring the avatar to perform text-aligned interactions with surrounding objects. This challenge stems from the need for environmental perception and the control-quality dilemma in GHOI generation. To address this, we propose a novel dual-stream framework, InteractAvatar, which decouples perception and planning from video synthesis for grounded human-object interaction. Leveraging detection to enhance environmental perception, we introduce a Perception and Interaction Module (PIM) to generate text-aligned interaction motions. Additionally, an Audio-Interaction Aware Generation Module (AIM) is proposed to synthesize vivid talking avatars performing object interactions. With a specially designed motion-to-video aligner, PIM and AIM share a similar network structure and enable parallel co-generation of motions and plausible videos, effectively mitigating the control-quality dilemma. Finally, we establish a benchmark, GroundedInter, for evaluating GHOI video generation. Extensive experiments and comparisons demonstrate the effectiveness of our method in generating grounded human-object interactions for talking avatars. Project page: https://interactavatar.github.io
- Abstract(参考訳): 音声アバターの生成はビデオ生成の基本的な課題である。
既存の方法では単純な人間の動きで全身のアバターを生成できるが、このタスクを接地された人間と物体の相互作用(GHOI)に拡張することは未解決の課題であり、アバターは周囲の物体とテキストで整列する相互作用を行う必要がある。
この課題は、GHOI世代における環境認識と制御品質ジレンマの必要性に起因している。
そこで本研究では,人間と物体の相互作用に対する映像合成から知覚と計画を分離する,新しい双方向ストリームフレームワークであるInteractAvatarを提案する。
環境認識を高めるために検出を活用することで,テキスト・アライン・インタラクション・モーションを生成するための知覚・インタラクション・モジュール(PIM)を導入する。
さらに,物体間相互作用を行う音声アバターを合成するために,AIM (Audio-Interaction Aware Generation Module) を提案する。
特別に設計されたモーション・トゥ・ビデオ整合器により、PIMとAIMは同様のネットワーク構造を共有し、モーションと可視ビデオの同時生成を可能にし、制御品質のジレンマを効果的に緩和する。
最後に,GHOIビデオ生成評価のためのベンチマーク「GroundedInter」を構築した。
広汎な実験と比較により,会話アバターのための接地された人間と物体の相互作用生成における本手法の有効性が示された。
プロジェクトページ: https://interactavatar.github.io
関連論文リスト
- JoyAvatar: Unlocking Highly Expressive Avatars via Harmonized Text-Audio Conditioning [18.72712280434528]
JoyAvatarは長時間のアバタービデオを生成することができるフレームワークである。
そこで本研究では,モデルに固有のテキスト制御性を持たせるための,ツイン教師強化トレーニングアルゴリズムを提案する。
トレーニング中、マルチモーダル条件の強度を動的に調整する。
論文 参考訳(メタデータ) (2026-01-31T13:00:57Z) - Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation [71.38488610271247]
トーキングヘッド生成は、仮想コミュニケーションとコンテンツ生成のための静的ポートレートから、ライフスタイルのアバターを生成する。
現在のモデルは、真の対話的なコミュニケーションの感覚をまだ伝えていない。
本研究では,対話型ヘッドアバター生成のための新しいフレームワークであるAvatar Forcingを提案する。
論文 参考訳(メタデータ) (2026-01-02T11:58:48Z) - SmartAvatar: Text- and Image-Guided Human Avatar Generation with VLM AI Agents [91.26239311240873]
SmartAvatarは視覚言語によるアニメーション対応の3Dアバターを生成するためのフレームワークである。
重要なイノベーションは、エージェントがドラフトアバターを描画する自動検証ループである。
生成されたアバターは完全にリグされ、一貫したアイデンティティと外観で操作をサポートする。
論文 参考訳(メタデータ) (2025-06-05T03:49:01Z) - Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy [30.43930233035367]
VLM(Vision-Language Models)を利用した最初の統合物理ベースのHOフレームワークを紹介する。
VLM-Guided Relative Movement Dynamics (RMD)を導入する。これは、強化学習のための目標状態と報酬関数を自動的に構築する、微細な時間的二部運動表現である。
提案手法をサポートするために,何千もの長期の静的および動的相互作用計画を持つ新しいデータセットであるInterplayを提案する。
論文 参考訳(メタデータ) (2025-03-24T05:18:04Z) - AnchorCrafter: Animate Cyber-Anchors Selling Your Products via Human-Object Interacting Video Generation [40.81246588724407]
アンカースタイルの製品プロモーションビデオは、eコマース、広告、消費者エンゲージメントにおいて有望な機会を提供する。
AnchorCrafterは、ターゲットの人間とカスタマイズされたオブジェクトを特徴とする2Dビデオを生成するために設計された、新しい拡散ベースのシステムである。
本稿では,物体の外観認識を任意の視点から拡張するHOI-appearance Recognitionと,複雑な人間と物体の相互作用を可能にするHOI-motion Injectionという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2024-11-26T12:42:13Z) - AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。