論文の概要: TIGeR: Text-Instructed Generation and Refinement for Template-Free Hand-Object Interaction
- arxiv url: http://arxiv.org/abs/2506.00953v1
- Date: Sun, 01 Jun 2025 10:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.806731
- Title: TIGeR: Text-Instructed Generation and Refinement for Template-Free Hand-Object Interaction
- Title(参考訳): TIGeR:テンプレートフリーハンドオブジェクトインタラクションのためのテキスト命令生成とリファインメント
- Authors: Yiyao Huang, Zhedong Zheng, Yu Ziwei, Yaxiong Wang, Tze Ho Elden Tse, Angela Yao,
- Abstract要約: 本稿では,物体形状の精細化とポーズ推定を行うためのTIGeR(Text-Instructed Generation and Refinement)フレームワークを提案する。
テキストで指示された事前生成と視覚誘導による洗練という2段階のフレームワークを使用します。
TIGeRは、広く使用されているDex-YCBおよびObmanデータセット上でのChamfer距離、すなわち1.979および5.468オブジェクトの競合性能を達成する。
- 参考スコア(独自算出の注目度): 43.61297194416115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-defined 3D object templates are widely used in 3D reconstruction of hand-object interactions. However, they often require substantial manual efforts to capture or source, and inherently restrict the adaptability of models to unconstrained interaction scenarios, e.g., heavily-occluded objects. To overcome this bottleneck, we propose a new Text-Instructed Generation and Refinement (TIGeR) framework, harnessing the power of intuitive text-driven priors to steer the object shape refinement and pose estimation. We use a two-stage framework: a text-instructed prior generation and vision-guided refinement. As the name implies, we first leverage off-the-shelf models to generate shape priors according to the text description without tedious 3D crafting. Considering the geometric gap between the synthesized prototype and the real object interacted with the hand, we further calibrate the synthesized prototype via 2D-3D collaborative attention. TIGeR achieves competitive performance, i.e., 1.979 and 5.468 object Chamfer distance on the widely-used Dex-YCB and Obman datasets, respectively, surpassing existing template-free methods. Notably, the proposed framework shows robustness to occlusion, while maintaining compatibility with heterogeneous prior sources, e.g., retrieved hand-crafted prototypes, in practical deployment scenarios.
- Abstract(参考訳): 事前定義された3次元オブジェクトテンプレートは、手動物体の相互作用の3次元再構成に広く利用されている。
しかし、それらはしばしば、キャプチャーまたはソースを取得するためにかなりの手作業を必要とし、本質的には、制約のない相互作用シナリオ(例えば、非常に制限されたオブジェクト)へのモデルの適応性を制限する。
このボトルネックを克服するために、直感的なテキスト駆動型事前処理のパワーを活用して、オブジェクト形状の洗練とポーズ推定を行う、新しいテキスト指示型生成・リファインメント(TIGeR)フレームワークを提案する。
テキストで指示された事前生成と視覚誘導による洗練という2段階のフレームワークを使用します。
名前が示すように、私たちはまず市販のモデルを利用して、退屈な3D制作をすることなく、テキスト記述に従って形状の事前を生成する。
合成されたプロトタイプと実際のオブジェクトとの幾何学的ギャップを考慮し、2D-3Dの協調的注意を通して合成されたプロトタイプをさらに校正する。
TIGeRは、広く使われているDex-YCBデータセットとObmanデータセットにおいて、それぞれ1.979と5.468のオブジェクトチャンファー距離の競合性能を達成し、既存のテンプレートフリーメソッドを上回っている。
特に,提案したフレームワークは,実用的なデプロイシナリオにおいて,異種先行ソース(例えば手作りプロトタイプ)との互換性を維持しながら,隠蔽に対する堅牢性を示す。
関連論文リスト
- InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing [36.29681929804816]
特定のデータセットをトレーニングすることなく,新たなゼロショット3DHOI生成フレームワークを提案する。
トレーニング済みの2次元画像拡散モデルを用いて、見えない物体を解析し、接触点を抽出する。
次に、細粒度、精密、そして自然な相互作用を生成するための詳細な最適化を導入し、3Dオブジェクトと関連する身体部分との間の現実的な3D接触を強制する。
論文 参考訳(メタデータ) (2025-05-30T07:53:55Z) - MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。
手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文 参考訳(メタデータ) (2025-05-22T12:37:47Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Towards Semantic 3D Hand-Object Interaction Generation via Functional Text Guidance [9.630837159704004]
ハンドオブジェクトインタラクション(HOI)は、人間と環境の基本的なリンクである。
AIとロボティクスの進歩にもかかわらず、機能的把握タスクのセマンティクスを捉えることは大きな課題である。
本稿では,関数型テキストによって駆動される3次元HOIを生成するために,FGS-Net(Functional Grasp Synthesis Net)という,革新的な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-28T07:42:54Z) - EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction [8.253265795150401]
本稿では,3Dにおける手-物間相互作用のシーケンスを生成するための最初のテキスト誘導作業について紹介する。
接触生成のために、VAEベースのネットワークはテキストとオブジェクトメッシュを入力として、手の表面とオブジェクトとの間の接触の確率を生成する。
運動生成のために、トランスフォーマーベースの拡散モデルは、この3Dコンタクトマップを、物理的に可塑性な手オブジェクトの動きを生成するための強力な先行手段として利用する。
論文 参考訳(メタデータ) (2024-03-31T04:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。