論文の概要: EigenActor: Variant Body-Object Interaction Generation Evolved from Invariant Action Basis Reasoning
- arxiv url: http://arxiv.org/abs/2503.00382v2
- Date: Tue, 04 Mar 2025 02:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:14.148762
- Title: EigenActor: Variant Body-Object Interaction Generation Evolved from Invariant Action Basis Reasoning
- Title(参考訳): EigenActor: 不変アクションバス推論による身体・物体間相互作用の可変生成
- Authors: Xuehao Gao, Yang Yang, Shaoyi Du, Yang Wu, Yebin Liu, Guo-Jun Qi,
- Abstract要約: 本稿では,テキストベースの命令から3次元オブジェクト間相互作用(HOI)を推定するクロスモーダル合成タスクについて検討する。
既存のテキスト対HOI合成法は主に、テキストからオブジェクト固有の3D体の動きへの直接マッピングをデプロイする。
本稿では,テキスト・ツー・ホイタスクのための新しいボディーポーズ生成戦略を提案する。
- 参考スコア(独自算出の注目度): 66.68366281305977
- License:
- Abstract: This paper explores a cross-modality synthesis task that infers 3D human-object interactions (HOIs) from a given text-based instruction. Existing text-to-HOI synthesis methods mainly deploy a direct mapping from texts to object-specific 3D body motions, which may encounter a performance bottleneck since the huge cross-modality gap. In this paper, we observe that those HOI samples with the same interaction intention toward different targets, e.g., "lift a chair" and "lift a cup", always encapsulate similar action-specific body motion patterns while characterizing different object-specific interaction styles. Thus, learning effective action-specific motion priors and object-specific interaction priors is crucial for a text-to-HOI model and dominates its performances on text-HOI semantic consistency and body-object interaction realism. In light of this, we propose a novel body pose generation strategy for the text-to-HOI task: infer object-agnostic canonical body action first and then enrich object-specific interaction styles. Specifically, the first canonical body action inference stage focuses on learning intra-class shareable body motion priors and mapping given text-based semantics to action-specific canonical 3D body motions. Then, in the object-specific interaction inference stage, we focus on object affordance learning and enrich object-specific interaction styles on an inferred action-specific body motion basis. Extensive experiments verify that our proposed text-to-HOI synthesis system significantly outperforms other SOTA methods on three large-scale datasets with better semantic consistency and interaction realism performances.
- Abstract(参考訳): 本稿では,テキストベースの命令から3次元オブジェクト間相互作用(HOI)を推定するクロスモーダル合成タスクについて検討する。
既存のテキスト対HoI合成法は主に、テキストからオブジェクト固有の3Dボディモーションへの直接マッピングをデプロイする。
本稿では,異なる対象に対して同一の相互作用を意図したHOIサンプル,例えば「リフト・ア・チェア」や「リフト・ア・カップ」が常に類似の動作特異的な身体動作パターンをカプセル化しつつ,異なる対象固有のインタラクションスタイルを特徴付ける。
このように、効果的なアクション固有動作先行とオブジェクト固有相互作用先行を学習することは、テキスト-HOIモデルにとって不可欠であり、テキスト-HOIセマンティック一貫性と身体-物体間相互作用リアリズムでそのパフォーマンスを支配している。
そこで本研究では,テキスト・ツー・ホイタスクのための新しいボディーポーズ生成戦略を提案する。
特に、最初の標準身体動作推論段階は、クラス内で共有可能な身体の動きの事前学習と、与えられたテキストベースの意味をアクション固有の3D身体の動きにマッピングすることに焦点を当てている。
そして,オブジェクト固有相互作用推論の段階では,オブジェクト空き学習と,推論されたアクション固有体の動きに基づくオブジェクト固有相互作用スタイルの充実に焦点をあてる。
提案するテキスト・ツー・ホイ合成システムは,セマンティック一貫性と相互作用リアリズム性能を向上した3つの大規模データセットにおいて,他のSOTA手法よりも大幅に優れていた。
関連論文リスト
- BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - TextIM: Part-aware Interactive Motion Synthesis from Text [25.91739105467082]
TextIMは、TEXT駆動のヒューマンインタラクティブモーションを合成するための新しいフレームワークである。
我々のアプローチは、人間の脳として機能する大きな言語モデルを利用して、相互作用する人間の身体部分を特定する。
トレーニングと評価のために,HUMANML3Dからインタラクティブな動きを慎重に選択し,再ラベルし,特殊なデータセットを開発した。
論文 参考訳(メタデータ) (2024-08-06T17:08:05Z) - InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction [27.10256777126629]
本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。
人間の行動が物体の動きにどのように影響するかをモデル化し、単純な物理を理解するために設計された世界モデルを導入する。
これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-03-28T17:59:30Z) - DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oとよばれる新しい手法を提案する。
本手法では,限られたデータから効果的な学習を可能にする3つの手法を導入する。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。