Fugu-MT 論文翻訳(概要): VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos

論文の概要: VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos

arxiv url: http://arxiv.org/abs/2602.20608v1
Date: Tue, 24 Feb 2026 07:00:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.63534
Title: VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos
Title（参考訳）: VAGNet:ビデオにおける人間と物体のインタラクションによる3Dの精度向上
Authors: Aihua Mao, Kaihang Huang, Yong-Jin Liu, Chee Seng Chan, Ying He,
Abstract要約: 人-物間相互作用(HOI)を支援する3Dオブジェクト上の領域を特定することを目的とした3Dオブジェクト割当グラウンド既存のほとんどのアプローチは静的な視覚的またはテキスト的手がかりに依存しており、空白は本質的に動的アクションによって定義されていることを無視している。本稿では,ダイナミックなインタラクションシーケンスを活用して機能的監視を行う,映像誘導型3Dアベイランスグラウンドティングを提案する。
参考スコア（独自算出の注目度）: 31.566690411188244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D object affordance grounding aims to identify regions on 3D objects that support human-object interaction (HOI), a capability essential to embodied visual reasoning. However, most existing approaches rely on static visual or textual cues, neglecting that affordances are inherently defined by dynamic actions. As a result, they often struggle to localize the true contact regions involved in real interactions. We take a different perspective. Humans learn how to use objects by observing and imitating actions, not just by examining shapes. Motivated by this intuition, we introduce video-guided 3D affordance grounding, which leverages dynamic interaction sequences to provide functional supervision. To achieve this, we propose VAGNet, a framework that aligns video-derived interaction cues with 3D structure to resolve ambiguities that static cues cannot address. To support this new setting, we introduce PVAD, the first HOI video-3D pairing affordance dataset, providing functional supervision unavailable in prior works. Extensive experiments on PVAD show that VAGNet achieves state-of-the-art performance, significantly outperforming static-based baselines. The code and dataset will be open publicly.
Abstract（参考訳）: 3Dオブジェクト割当グラウンドは、視覚的推論を具体化する能力である人-物間相互作用(HOI)をサポートする3Dオブジェクト上の領域を特定することを目的としている。しかし、既存のほとんどのアプローチは静的な視覚的またはテキスト的手がかりに依存しており、余裕は本質的に動的アクションによって定義されていることを無視している。その結果、実際の相互作用に関わる真の接触領域のローカライズに苦慮することが多い。私たちは異なる視点をとっています。人間は、形を調べるだけでなく、行動を観察し模倣することで、物体の使い方を学ぶ。この直感に触発され,ダイナミックなインタラクションシーケンスを利用した映像誘導型3Dアベイランスグラウンドティングを導入し,機能的監視を実現する。これを実現するために、静的なキューが対応できないあいまいさを解決するために、ビデオ由来のインタラクションキューを3D構造に整列するフレームワークであるVAGNetを提案する。この新たな設定をサポートするために,最初のHOIビデオ3DペアリングアベイランスデータセットであるPVADを導入する。 PVADの大規模な実験は、VAGNetが最先端のパフォーマンスを達成し、静的ベースラインを著しく上回っていることを示している。コードとデータセットは公開されます。

関連論文リスト

VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model [29.52176445302312]
3Dの空き地は、ロボット操作に欠かせない3Dオブジェクトの動作可能な領域を強調することを目的としている。本稿では,余剰セグメンテーション機能を付加したマルチモーダルな大規模言語モデルを活性化するVideoAffordを提案する。我々のモデルは、確立された手法を著しく上回り、手頃な推論能力を備えた強力なオープンワールド一般化を示す。
論文参考訳（メタデータ） (2026-02-10T10:36:57Z)
REACT3D: Recovering Articulations for Interactive Physical 3D Scenes [96.27769519526426]
REACT3Dは静的な3Dシーンを一貫した幾何学を持つシミュレーション可能なインタラクティブなレプリカに変換するフレームワークである。室内の様々な場面における検出・分離・調音計測における最先端性能について検討した。
論文参考訳（メタデータ） (2025-10-13T12:37:59Z)
LSVG: Language-Guided Scene Graphs with 2D-Assisted Multi-Modal Encoding for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。本稿では,言語誘導型シーングラフを参照オブジェクト識別で構築する新しい3次元ビジュアルグラウンドディングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-07T02:02:15Z)
GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。 GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文参考訳（メタデータ） (2024-11-29T11:23:15Z)
Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文参考訳（メタデータ） (2024-09-29T10:46:19Z)
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文参考訳（メタデータ） (2023-09-08T19:27:01Z)
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-24T17:59:51Z)
Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文参考訳（メタデータ） (2023-03-18T15:37:35Z)
Hindsight for Foresight: Unsupervised Structured Dynamics Models from Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-08-02T11:04:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。