Fugu-MT 論文翻訳(概要): InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction

論文の概要: InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction

arxiv url: http://arxiv.org/abs/2403.19652v1
Date: Thu, 28 Mar 2024 17:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 15:04:56.084936
Title: InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction
Title（参考訳）: InterDreamer:3D動的オブジェクトインタラクションのためのゼロショットテキスト
Authors: Sirui Xu, Ziyin Wang, Yu-Xiong Wang, Liang-Yan Gui,
Abstract要約: 本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。人間の行動が物体の動きにどのように影響するかをモデル化し、単純な物理を理解するために設計された世界モデルを導入する。これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。
参考スコア（独自算出の注目度）: 27.10256777126629
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-conditioned human motion generation has experienced significant advancements with diffusion models trained on extensive motion capture data and corresponding textual annotations. However, extending such success to 3D dynamic human-object interaction (HOI) generation faces notable challenges, primarily due to the lack of large-scale interaction data and comprehensive descriptions that align with these interactions. This paper takes the initiative and showcases the potential of generating human-object interactions without direct training on text-interaction pair data. Our key insight in achieving this is that interaction semantics and dynamics can be decoupled. Being unable to learn interaction semantics through supervised training, we instead leverage pre-trained large models, synergizing knowledge from a large language model and a text-to-motion model. While such knowledge offers high-level control over interaction semantics, it cannot grasp the intricacies of low-level interaction dynamics. To overcome this issue, we further introduce a world model designed to comprehend simple physics, modeling how human actions influence object motion. By integrating these components, our novel framework, InterDreamer, is able to generate text-aligned 3D HOI sequences in a zero-shot manner. We apply InterDreamer to the BEHAVE and CHAIRS datasets, and our comprehensive experimental analysis demonstrates its capability to generate realistic and coherent interaction sequences that seamlessly align with the text directives.
Abstract（参考訳）: テキスト条件付き人間の動作生成は、広範囲なモーションキャプチャーデータとそれに対応するテキストアノテーションに基づいて訓練された拡散モデルによって著しく進歩してきた。しかし、このような成功を3次元ダイナミックなヒューマンオブジェクトインタラクション(HOI)生成に拡張することは、主に大規模なインタラクションデータや、これらのインタラクションと整合する包括的な記述が欠如しているため、顕著な課題に直面している。本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。これを達成する上で重要な洞察は、相互作用のセマンティクスとダイナミクスを分離できるということです。教師付きトレーニングによって相互作用の意味を学べないため、トレーニング済みの大規模モデルを活用し、大きな言語モデルとテキスト・トゥ・モーションモデルからの知識を相乗化します。このような知識は相互作用のセマンティクスに対する高レベルの制御を提供するが、低レベルの相互作用力学の複雑さを把握できない。この問題を克服するために,人間の行動が物体の動きにどのように影響するかをモデル化し,単純な物理を理解するように設計された世界モデルを導入する。これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。 BEHAVEおよびCHAIRSデータセットにInterDreamerを適用し,テキストディレクティブとシームレスに整合する現実的かつ一貫性のあるインタラクションシーケンスを生成する能力を示す。

関連論文リスト

MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。 2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-09-28T14:31:41Z)
Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
EigenActor: Variant Body-Object Interaction Generation Evolved from Invariant Action Basis Reasoning [66.68366281305977]
本稿では,テキストベースの命令から3次元オブジェクト間相互作用(HOI)を推定するクロスモーダル合成タスクについて検討する。既存のテキスト対HOI合成法は主に、テキストからオブジェクト固有の3D体の動きへの直接マッピングをデプロイする。本稿では,テキスト・ツー・ホイタスクのための新しいボディーポーズ生成戦略を提案する。
論文参考訳（メタデータ） (2025-03-01T07:15:10Z)
OOD-HOI: Text-Driven 3D Whole-Body Human-Object Interactions Generation Beyond Training Domains [66.62502882481373]
現在の方法では、身体と手の両方に焦点を合わせ、結束的で現実的な相互作用を生み出す能力を制限する傾向にある。我々は,OOD-HOIというテキスト駆動型フレームワークを提案する。提案手法は,初期相互作用ポーズを合成するための二重分岐相互拡散モデルと,予測された接触領域に基づく物理的精度向上のための接触誘導相互作用精製器と,ロバスト性向上のための意味的調整と変形を含む動的適応機構を統合した。
論文参考訳（メタデータ） (2024-11-27T10:13:35Z)
Versatile Motion Language Models for Multi-Turn Interactive Agents [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion言語モデルを提案する。動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声
論文参考訳（メタデータ） (2024-10-08T02:23:53Z)
TextIM: Part-aware Interactive Motion Synthesis from Text [25.91739105467082]
TextIMは、TEXT駆動のヒューマンインタラクティブモーションを合成するための新しいフレームワークである。我々のアプローチは、人間の脳として機能する大きな言語モデルを利用して、相互作用する人間の身体部分を特定する。トレーニングと評価のために,HUMANML3Dからインタラクティブな動きを慎重に選択し,再ラベルし,特殊なデータセットを開発した。
論文参考訳（メタデータ） (2024-08-06T17:08:05Z)
THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文参考訳（メタデータ） (2024-03-17T13:17:25Z)
Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。人体全体の動きや部分レベルの物体の動きを複雑に捉えます。本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文参考訳（メタデータ） (2024-03-13T15:45:04Z)
Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文参考訳（メタデータ） (2023-12-06T21:14:20Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)
InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文参考訳（メタデータ） (2023-08-31T17:59:08Z)
Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文参考訳（メタデータ） (2022-07-26T11:37:44Z)
VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。 VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文参考訳（メタデータ） (2021-12-08T09:49:28Z)
Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文参考訳（メタデータ） (2021-09-09T16:04:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。