論文の概要: InteractMove: Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects
- arxiv url: http://arxiv.org/abs/2509.23612v1
- Date: Sun, 28 Sep 2025 03:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.326963
- Title: InteractMove: Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects
- Title(参考訳): InteractMove: 移動可能なオブジェクトを持つ3次元シーンにおけるテキスト制御されたヒューマンオブジェクトインタラクション生成
- Authors: Xinhao Cai, Minghang Zheng, Xin Jin, Yang Liu,
- Abstract要約: 動画像を用いた3次元シーンにおけるテキスト制御によるオブジェクトインタラクション生成の課題を提案する。
既存の人間とシーンの相互作用データセットは、不十分な相互作用カテゴリに悩まされる。
異なる手関節の接触領域を予測するための手指型手指合せ学習を提案する。
- 参考スコア(独自算出の注目度): 15.92165183796286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel task of text-controlled human object interaction generation in 3D scenes with movable objects. Existing human-scene interaction datasets suffer from insufficient interaction categories and typically only consider interactions with static objects (do not change object positions), and the collection of such datasets with movable objects is difficult and costly. To address this problem, we construct the InteractMove dataset for Movable Human-Object Interaction in 3D Scenes by aligning existing human object interaction data with scene contexts, featuring three key characteristics: 1) scenes containing multiple movable objects with text-controlled interaction specifications (including same-category distractors requiring spatial and 3D scene context understanding), 2) diverse object types and sizes with varied interaction patterns (one-hand, two-hand, etc.), and 3) physically plausible object manipulation trajectories. With the introduction of various movable objects, this task becomes more challenging, as the model needs to identify objects to be interacted with accurately, learn to interact with objects of different sizes and categories, and avoid collisions between movable objects and the scene. To tackle such challenges, we propose a novel pipeline solution. We first use 3D visual grounding models to identify the interaction object. Then, we propose a hand-object joint affordance learning to predict contact regions for different hand joints and object parts, enabling accurate grasping and manipulation of diverse objects. Finally, we optimize interactions with local-scene modeling and collision avoidance constraints, ensuring physically plausible motions and avoiding collisions between objects and the scene. Comprehensive experiments demonstrate our method's superiority in generating physically plausible, text-compliant interactions compared to existing approaches.
- Abstract(参考訳): 動画像を用いた3次元シーンにおけるテキスト制御によるオブジェクトインタラクション生成の課題を提案する。
既存のヒューマン・シーンの相互作用データセットは、相互作用のカテゴリが不十分で、通常、静的なオブジェクトとの相互作用のみを考慮し(オブジェクトの位置を変更しない)、そのようなデータセットの収集は困難でコストがかかる。
この問題に対処するために,既存のヒューマンオブジェクトインタラクションデータをシーンコンテキストと整列させることにより,3次元シーンにおける移動可能なヒューマンオブジェクトインタラクションのためのInteractMoveデータセットを構築した。
1)テキスト制御インタラクション仕様を持つ複数の可動オブジェクトを含むシーン(空間的・3次元シーンコンテキスト理解を必要とする同一カテゴリーのインタプリタを含む)
2 多様な相互作用パターン(片手、両手等)を有する多様な対象の種類及び大きさ
3) 物理的に妥当な物体操作軌跡。
様々な可動物体の導入により、モデルが正確に相互作用するオブジェクトを特定し、異なるサイズやカテゴリのオブジェクトと相互作用し、可動物体とシーンの衝突を避ける必要があるため、このタスクはより困難になる。
このような課題に対処するために,我々は新しいパイプラインソリューションを提案する。
まず3次元視覚的グラウンドモデルを用いてインタラクションオブジェクトを識別する。
そこで本研究では,手関節と対象部位の接触領域を予測し,多様な物体の正確な把握と操作を可能にするハンドオブジェクトジョイントアプライアンス学習を提案する。
最後に、局所シーンモデリングと衝突回避制約との相互作用を最適化し、物理的に妥当な動きを保証し、物体とシーンの衝突を避ける。
包括的実験により,本手法は既存の手法と比較して,物理的に妥当でテキストに順応する相互作用を生成できることが実証された。
関連論文リスト
- Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction [8.253265795150401]
本稿では,3Dにおける手-物間相互作用のシーケンスを生成するための最初のテキスト誘導作業について紹介する。
接触生成のために、VAEベースのネットワークはテキストとオブジェクトメッシュを入力として、手の表面とオブジェクトとの間の接触の確率を生成する。
運動生成のために、トランスフォーマーベースの拡散モデルは、この3Dコンタクトマップを、物理的に可塑性な手オブジェクトの動きを生成するための強力な先行手段として利用する。
論文 参考訳(メタデータ) (2024-03-31T04:56:30Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - HMDO: Markerless Multi-view Hand Manipulation Capture with Deformable
Objects [8.711239906965893]
HMDOは、手と変形可能な物体の対話的な動きを記録する最初のマーカーレス変形可能な相互作用データセットである。
提案手法は,手と変形可能な物体の対話的動きを高品質に再現することができる。
論文 参考訳(メタデータ) (2023-01-18T16:55:15Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z) - Object Properties Inferring from and Transfer for Human Interaction
Motions [51.896592493436984]
本稿では,人間のインタラクション動作のみからオブジェクト特性を推測する,きめ細かい動作認識手法を提案する。
我々は、慣性モーションキャプチャー装置を用いて、演奏者の多数のビデオと3D骨格の動きを収集する。
特に, 相互作用対象の重み, 脆弱性, デリカシーを推定することにより, 相互作用対象の同定を学習する。
論文 参考訳(メタデータ) (2020-08-20T14:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。