論文の概要: TOUCH: Text-guided Controllable Generation of Free-Form Hand-Object Interactions
- arxiv url: http://arxiv.org/abs/2510.14874v1
- Date: Thu, 16 Oct 2025 16:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.955801
- Title: TOUCH: Text-guided Controllable Generation of Free-Form Hand-Object Interactions
- Title(参考訳): TOUCH:自由形ハンドオブジェクトインタラクションのテキスト誘導制御可能生成
- Authors: Guangyi Han, Wei Zhai, Yuhang Yang, Yang Cao, Zheng-Jun Zha,
- Abstract要約: Free-Form HOI Generationは、きめ細かいインテントで調整された制御可能な、多様性があり、物理的に妥当なHOIを生成することを目的としている。
われわれはWildO2を構築した。WildO2は、インターネットビデオから派生した多様なHOIを含む3D HOIデータセットである。
本データセットをベースとしたTOUCHは,多目的手ポーズを生成するための細粒度セマンティック制御を容易にする3段階フレームワークである。
- 参考スコア(独自算出の注目度): 66.08264566003048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand-object interaction (HOI) is fundamental for humans to express intent. Existing HOI generation research is predominantly confined to fixed grasping patterns, where control is tied to physical priors such as force closure or generic intent instructions, even when expressed through elaborate language. Such an overly general conditioning imposes a strong inductive bias for stable grasps, thus failing to capture the diversity of daily HOI. To address these limitations, we introduce Free-Form HOI Generation, which aims to generate controllable, diverse, and physically plausible HOI conditioned on fine-grained intent, extending HOI from grasping to free-form interactions, like pushing, poking, and rotating. To support this task, we construct WildO2, an in-the-wild diverse 3D HOI dataset, which includes diverse HOI derived from internet videos. Specifically, it contains 4.4k unique interactions across 92 intents and 610 object categories, each with detailed semantic annotations. Building on this dataset, we propose TOUCH, a three-stage framework centered on a multi-level diffusion model that facilitates fine-grained semantic control to generate versatile hand poses beyond grasping priors. This process leverages explicit contact modeling for conditioning and is subsequently refined with contact consistency and physical constraints to ensure realism. Comprehensive experiments demonstrate our method's ability to generate controllable, diverse, and physically plausible hand interactions representative of daily activities. The project page is $\href{https://guangyid.github.io/hoi123touch}{here}$.
- Abstract(参考訳): 手-物間相互作用(HOI)は、人間が意図を表現するための基本である。
既存のHOI 世代の研究は、たとえ精巧な言語で表現されたとしても、主に一定の把握パターンに限られており、そこでは、力の閉鎖や汎用的なインテント命令といった物理的な先入観に制御が結び付けられている。
このような過度に一般的な条件付けは、安定した把握のために強い誘導バイアスを課し、毎日のHOIの多様性を捉えない。
このような制約に対処するため,我々は,制御可能な,多様で,物理的に妥当なHOIを生成することを目的としたFree-Form HOI Generationを導入し,HOIの握り方から,プッシュ,ポーキング,回転などの自由形式のインタラクションへと拡張する。
このタスクを支援するために、インターネットビデオから派生した多様なHOIを含む3D HOIデータセットであるWildO2を構築した。
具体的には、92のインテントと610のオブジェクトカテゴリにわたる4.4kのユニークなインタラクションが含まれており、それぞれに詳細なセマンティックアノテーションがある。
このデータセットをベースとしたTOUCHは,多段階拡散モデルを中心とした3段階のフレームワークであり,よりきめ細かなセマンティック制御により,事前の把握を超えた多目的手ポーズを生成する。
このプロセスは条件付けのための明示的な接触モデリングを利用し、その後、現実性を保証するために接触一貫性と物理的制約で洗練される。
包括的実験により,日常活動に代表される制御可能,多様,物理的に妥当な手動インタラクションを創出できることが実証された。
プロジェクトページは$\href{https://guangyid.github.io/hoi123touch}{here}$である。
関連論文リスト
- CoopDiff: Anticipating 3D Human-object Interactions via Contact-consistent Decoupled Diffusion [62.93198247045824]
3Dヒューマンオブジェクトインタラクション(HOI)は,人間の将来の動きとその操作対象を,歴史的文脈で予測することを目的としている。
そこで我々は,人間と物体の運動モデリングを分離するために,2つの異なる分岐を用いた接触非結合拡散フレームワークCoopDiffを提案する。
論文 参考訳(メタデータ) (2025-08-10T03:29:17Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - FunHOI: Annotation-Free 3D Hand-Object Interaction Generation via Functional Text Guidanc [9.630837159704004]
ハンドオブジェクトインタラクション(HOI)は、人間と環境の基本的なリンクである。
AIとロボティクスの進歩にもかかわらず、機能的把握タスクのセマンティクスを捉えることは大きな課題である。
本稿では,関数型テキストによって駆動される3次元HOIを生成するために,FGS-Net(Functional Grasp Synthesis Net)という,革新的な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-28T07:42:54Z) - ClickDiff: Click to Induce Semantic Contact Map for Controllable Grasp Generation with Diffusion Models [17.438429495623755]
ClickDiffは、きめ細かいセマンティックコンタクトマップを利用する制御可能な条件生成モデルである。
このフレームワーク内では、セマンティック条件付きモジュールは、きめ細かい接触情報に基づいて適切な接触マップを生成する。
提案手法の有効性を検証し,ClickDiffの有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2024-07-28T02:42:29Z) - G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。
人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。
この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:28Z) - Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction [8.253265795150401]
本稿では,3Dにおける手-物間相互作用のシーケンスを生成するための最初のテキスト誘導作業について紹介する。
接触生成のために、VAEベースのネットワークはテキストとオブジェクトメッシュを入力として、手の表面とオブジェクトとの間の接触の確率を生成する。
運動生成のために、トランスフォーマーベースの拡散モデルは、この3Dコンタクトマップを、物理的に可塑性な手オブジェクトの動きを生成するための強力な先行手段として利用する。
論文 参考訳(メタデータ) (2024-03-31T04:56:30Z) - DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oとよばれる新しい手法を提案する。
本手法では,限られたデータから効果的な学習を可能にする3つの手法を導入する。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。