論文の概要: VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos
- arxiv url: http://arxiv.org/abs/2602.20608v1
- Date: Tue, 24 Feb 2026 07:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.63534
- Title: VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos
- Title(参考訳): VAGNet:ビデオにおける人間と物体のインタラクションによる3Dの精度向上
- Authors: Aihua Mao, Kaihang Huang, Yong-Jin Liu, Chee Seng Chan, Ying He,
- Abstract要約: 人-物間相互作用(HOI)を支援する3Dオブジェクト上の領域を特定することを目的とした3Dオブジェクト割当グラウンド
既存のほとんどのアプローチは静的な視覚的またはテキスト的手がかりに依存しており、空白は本質的に動的アクションによって定義されていることを無視している。
本稿では,ダイナミックなインタラクションシーケンスを活用して機能的監視を行う,映像誘導型3Dアベイランスグラウンドティングを提案する。
- 参考スコア(独自算出の注目度): 31.566690411188244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object affordance grounding aims to identify regions on 3D objects that support human-object interaction (HOI), a capability essential to embodied visual reasoning. However, most existing approaches rely on static visual or textual cues, neglecting that affordances are inherently defined by dynamic actions. As a result, they often struggle to localize the true contact regions involved in real interactions. We take a different perspective. Humans learn how to use objects by observing and imitating actions, not just by examining shapes. Motivated by this intuition, we introduce video-guided 3D affordance grounding, which leverages dynamic interaction sequences to provide functional supervision. To achieve this, we propose VAGNet, a framework that aligns video-derived interaction cues with 3D structure to resolve ambiguities that static cues cannot address. To support this new setting, we introduce PVAD, the first HOI video-3D pairing affordance dataset, providing functional supervision unavailable in prior works. Extensive experiments on PVAD show that VAGNet achieves state-of-the-art performance, significantly outperforming static-based baselines. The code and dataset will be open publicly.
- Abstract(参考訳): 3Dオブジェクト割当グラウンドは、視覚的推論を具体化する能力である人-物間相互作用(HOI)をサポートする3Dオブジェクト上の領域を特定することを目的としている。
しかし、既存のほとんどのアプローチは静的な視覚的またはテキスト的手がかりに依存しており、余裕は本質的に動的アクションによって定義されていることを無視している。
その結果、実際の相互作用に関わる真の接触領域のローカライズに苦慮することが多い。
私たちは異なる視点をとっています。
人間は、形を調べるだけでなく、行動を観察し模倣することで、物体の使い方を学ぶ。
この直感に触発され,ダイナミックなインタラクションシーケンスを利用した映像誘導型3Dアベイランスグラウンドティングを導入し,機能的監視を実現する。
これを実現するために、静的なキューが対応できないあいまいさを解決するために、ビデオ由来のインタラクションキューを3D構造に整列するフレームワークであるVAGNetを提案する。
この新たな設定をサポートするために,最初のHOIビデオ3DペアリングアベイランスデータセットであるPVADを導入する。
PVADの大規模な実験は、VAGNetが最先端のパフォーマンスを達成し、静的ベースラインを著しく上回っていることを示している。
コードとデータセットは公開されます。
関連論文リスト
- LSVG: Language-Guided Scene Graphs with 2D-Assisted Multi-Modal Encoding for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。
本稿では,言語誘導型シーングラフを参照オブジェクト識別で構築する新しい3次元ビジュアルグラウンドディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:02:15Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。