論文の概要: SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories
- arxiv url: http://arxiv.org/abs/2503.22869v3
- Date: Thu, 29 May 2025 17:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.391519
- Title: SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories
- Title(参考訳): SIGHT:画像テキストコンディショニングと幾何学誘導の3Dハンドオブジェクト軌道の合成
- Authors: Alexey Gavryushin, Alexandros Delitzas, Luc Van Gool, Marc Pollefeys, Kaichun Mo, Xi Wang,
- Abstract要約: 手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
- 参考スコア(独自算出の注目度): 124.24041272390954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When humans grasp an object, they naturally form trajectories in their minds to manipulate it for specific tasks. Modeling hand-object interaction priors holds significant potential to advance robotic and embodied AI systems in learning to operate effectively within the physical world. We introduce SIGHT, a novel task focused on generating realistic and physically plausible 3D hand-object interaction trajectories from a single image and a brief language-based task description. Prior work on hand-object trajectory generation typically relies on textual input that lacks explicit grounding to the target object, or assumes access to 3D object meshes, which are often considerably more difficult to obtain than 2D images. We propose SIGHT-Fusion, a novel diffusion-based image-text conditioned generative model that tackles this task by retrieving the most similar 3D object mesh from a database and enforcing geometric hand-object interaction constraints via a novel inference-time diffusion guidance. We benchmark our model on the HOI4D and H2O datasets, adapting relevant baselines for this novel task. Experiments demonstrate our superior performance in the diversity and quality of generated trajectories, as well as in hand-object interaction geometry metrics.
- Abstract(参考訳): 人間が物体をつかむと、自然に心に軌道を形成して特定のタスクのために操作する。
手動物体の相互作用をモデル化することは、物理的な世界の中で効果的に動作するための学習において、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは,1つの画像と簡潔な言語に基づくタスク記述から,現実的で物理的に妥当な3次元ハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
手動物体軌道生成の以前の研究は、典型的には対象物への明確な接点を持たないテキスト入力や、3Dオブジェクトメッシュへのアクセスを前提としており、2D画像よりもはるかに難しいことが多い。
本稿では,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,新しい推論時間拡散誘導による幾何学的手オブジェクトの相互作用制約を強制することにより,この課題に対処する新しい拡散型画像文条件生成モデルであるSIGHT-Fusionを提案する。
HOI4DとH2Oのデータセットでモデルをベンチマークし、この新しいタスクに関連するベースラインを適用します。
実験は、生成した軌跡の多様性と品質、および手動物体間相互作用幾何学メトリクスにおける優れた性能を示す。
関連論文リスト
- BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oとよばれる新しい手法を提案する。
本手法では,限られたデータから効果的な学習を可能にする3つの手法を導入する。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - Physically Plausible Full-Body Hand-Object Interaction Synthesis [32.83908152822006]
そこで本研究では,全体で手-物体間相互作用を合成するための物理に基づく手法を提案する。
既存のメソッドは、しばしば相互作用プロセスの分離されたセグメントにフォーカスし、成果物をもたらす可能性のあるデータ駆動技術に依存します。
論文 参考訳(メタデータ) (2023-09-14T17:55:18Z) - Tracking and Reconstructing Hand Object Interactions from Point Cloud
Sequences in the Wild [35.55753131098285]
本稿では,手関節運動を推定するために,点クラウドを用いた手関節追跡ネットワークであるHandTrackNetを提案する。
このパイプラインは,予測ハンドジョイントをテンプレートベースパラメトリックハンドモデルMANOに変換することで,全ハンドを再構築する。
オブジェクトトラッキングでは,オブジェクトSDFを第1フレームから推定し,最適化に基づくトラッキングを行う,シンプルで効果的なモジュールを考案する。
論文 参考訳(メタデータ) (2022-09-24T13:40:09Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。