論文の概要: Towards Semantic 3D Hand-Object Interaction Generation via Functional Text Guidance
- arxiv url: http://arxiv.org/abs/2502.20805v1
- Date: Fri, 28 Feb 2025 07:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:40:52.608692
- Title: Towards Semantic 3D Hand-Object Interaction Generation via Functional Text Guidance
- Title(参考訳): 関数型テキスト誘導による意味的3次元手-物体相互作用生成に向けて
- Authors: Yongqi Tian, Xueyu Sun, Haoyuan He, Linji Hao, Ning Ding, Caigui Jiang,
- Abstract要約: ハンドオブジェクトインタラクション(HOI)は、人間と環境の基本的なリンクである。
AIとロボティクスの進歩にもかかわらず、機能的把握タスクのセマンティクスを捉えることは大きな課題である。
本稿では,関数型テキストによって駆動される3次元HOIを生成するために,FGS-Net(Functional Grasp Synthesis Net)という,革新的な2段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.630837159704004
- License:
- Abstract: Hand-object interaction(HOI) is the fundamental link between human and environment, yet its dexterous and complex pose significantly challenges for gesture control. Despite significant advances in AI and robotics, enabling machines to understand and simulate hand-object interactions, capturing the semantics of functional grasping tasks remains a considerable challenge. While previous work can generate stable and correct 3D grasps, they are still far from achieving functional grasps due to unconsidered grasp semantics. To address this challenge, we propose an innovative two-stage framework, Functional Grasp Synthesis Net (FGS-Net), for generating 3D HOI driven by functional text. This framework consists of a text-guided 3D model generator, Functional Grasp Generator (FGG), and a pose optimization strategy, Functional Grasp Refiner (FGR). FGG generates 3D models of hands and objects based on text input, while FGR fine-tunes the poses using Object Pose Approximator and energy functions to ensure the relative position between the hand and object aligns with human intent and remains physically plausible. Extensive experiments demonstrate that our approach achieves precise and high-quality HOI generation without requiring additional 3D annotation data.
- Abstract(参考訳): ハンドオブジェクトインタラクション(HOI)は人間と環境の基本的なリンクであるが、その巧妙で複雑な構造はジェスチャー制御において大きな課題を生んでいる。
AIとロボティクスの大幅な進歩により、機械は手-物体の相互作用を理解し、シミュレートすることができるが、機能的把握タスクの意味を捉えることは大きな課題である。
従来の作業では安定して正確な3Dグリーグを生成できるが、未考慮のグリーグセマンティクスのため、機能的なグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグルーグリーグルーグリーグルーグルーグリーグリーグリーグリーグリーグルーグリーグリーグリーグリーグリーグリーグリーグリーグリーグリーグリーグリーグルーグリーグリーグリーグリーグリーグリーグリーグリーグリーグリーグリーグ
この課題に対処するために,関数型テキストによって駆動される3次元HOIを生成するために,FGS-Net(Functional Grasp Synthesis Net)という,革新的な2段階のフレームワークを提案する。
このフレームワークは、テキスト誘導3Dモデルジェネレータ、FGG(Functional Grasp Generator)、ポーズ最適化戦略、FGR(Functional Grasp Refiner)で構成されている。
FGGはテキスト入力に基づいて手とオブジェクトの3Dモデルを生成し、FGRはオブジェクトポス近似器とエネルギー関数を使ってポーズを微調整し、手とオブジェクト間の相対的な位置が人間の意図と一致し、物理的に検証可能であることを保証する。
広汎な実験により,3次元アノテーションデータを必要とすることなく,高精度かつ高品質なHOI生成を実現することができた。
関連論文リスト
- HOGSA: Bimanual Hand-Object Interaction Understanding with 3D Gaussian Splatting Based Data Augmentation [29.766317710266765]
本稿では,2次元手動物体間相互作用のための3次元ガウススプラッティングに基づくデータ拡張フレームワークを提案する。
メッシュベースの3DGSを用いてオブジェクトとハンドをモデル化し、マルチレゾリューション入力画像によるレンダリングのぼかし問題に対処する。
両手オブジェクトに対する片手握りポーズ最適化モジュールを拡張し、両手オブジェクト間相互作用のさまざまなポーズを生成する。
論文 参考訳(メタデータ) (2025-01-06T08:48:17Z) - Learning Granularity-Aware Affordances from Human-Object Interaction for Tool-Based Functional Grasping in Dexterous Robotics [27.124273762587848]
オブジェクトの付加的な特徴は、エージェントとオブジェクト間の機能的な相互作用のブリッジとして機能する。
機能的空き地を特定するための粒度対応型空き地特徴抽出法を提案する。
また,手動物体間相互作用領域において,高活性な粗粒度機能を用いて,握り動作の予測を行う。
これは完全なロボット機能把握フレームワークGAAF-Dexを形成する。
論文 参考訳(メタデータ) (2024-06-30T07:42:57Z) - Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication [50.541882834405946]
我々は,テキストから3Dへの自動的実装であるAtlas3Dを紹介する。
提案手法は,新しい微分可能シミュレーションに基づく損失関数と,物理的にインスパイアされた正規化を組み合わせたものである。
我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。
論文 参考訳(メタデータ) (2024-05-28T18:33:18Z) - Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction [8.253265795150401]
本稿では,3Dにおける手-物間相互作用のシーケンスを生成するための最初のテキスト誘導作業について紹介する。
接触生成のために、VAEベースのネットワークはテキストとオブジェクトメッシュを入力として、手の表面とオブジェクトとの間の接触の確率を生成する。
運動生成のために、トランスフォーマーベースの拡散モデルは、この3Dコンタクトマップを、物理的に可塑性な手オブジェクトの動きを生成するための強力な先行手段として利用する。
論文 参考訳(メタデータ) (2024-03-31T04:56:30Z) - DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oとよばれる新しい手法を提案する。
本手法では,限られたデータから効果的な学習を可能にする3つの手法を導入する。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - InterFusion: Text-Driven Generation of 3D Human-Object Interaction [38.380079482331745]
ゼロショットテキスト・ツー・3D方式でテキスト記述から3次元オブジェクト間相互作用(HOI)を生成する複雑な課題に取り組む。
本稿では,HOI生成に特化して設計された2段階フレームワークであるInterFusionを紹介する。
実験の結果,InterFusionは3次元HOI生成において既存の最先端手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-03-22T20:49:26Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Hand-Object Interaction Image Generation [135.87707468156057]
この仕事は、新しいタスク、すなわち手動オブジェクトのインタラクション画像生成に特化している。
与えられた手、オブジェクト、それらの相互作用状態の下で、条件付きハンドオブジェクト画像を生成することを目的としている。
このタスクは、AR/VRゲームやオンラインショッピングなど、多くの潜在的なアプリケーションシナリオにおいて、挑戦的で研究に値するものだ。
論文 参考訳(メタデータ) (2022-11-28T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。