論文の概要: VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2602.09638v1
- Date: Tue, 10 Feb 2026 10:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.499092
- Title: VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model
- Title(参考訳): VideoAfford:マルチモーダル大言語モデルによる人-物-相互作用ビデオからの3Dレンダリング
- Authors: Hanqing Wang, Mingyu Liu, Xiaoyu Chen, Chengwei MA, Yiming Zhong, Wenti Yin, Yuhao Liu, Zhiqing Cui, Jiahao Yuan, Lu Dai, Zhiyuan Ma, Hui Xiong,
- Abstract要約: 3Dの空き地は、ロボット操作に欠かせない3Dオブジェクトの動作可能な領域を強調することを目的としている。
本稿では,余剰セグメンテーション機能を付加したマルチモーダルな大規模言語モデルを活性化するVideoAffordを提案する。
我々のモデルは、確立された手法を著しく上回り、手頃な推論能力を備えた強力なオープンワールド一般化を示す。
- 参考スコア(独自算出の注目度): 29.52176445302312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D affordance grounding aims to highlight the actionable regions on 3D objects, which is crucial for robotic manipulation. Previous research primarily focused on learning affordance knowledge from static cues such as language and images, which struggle to provide sufficient dynamic interaction context that can reveal temporal and causal cues. To alleviate this predicament, we collect a comprehensive video-based 3D affordance dataset, \textit{VIDA}, which contains 38K human-object-interaction videos covering 16 affordance types, 38 object categories, and 22K point clouds. Based on \textit{VIDA}, we propose a strong baseline: VideoAfford, which activates multimodal large language models with additional affordance segmentation capabilities, enabling both world knowledge reasoning and fine-grained affordance grounding within a unified framework. To enhance action understanding capability, we leverage a latent action encoder to extract dynamic interaction priors from HOI videos. Moreover, we introduce a \textit{spatial-aware} loss function to enable VideoAfford to obtain comprehensive 3D spatial knowledge. Extensive experimental evaluations demonstrate that our model significantly outperforms well-established methods and exhibits strong open-world generalization with affordance reasoning abilities. All datasets and code will be publicly released to advance research in this area.
- Abstract(参考訳): 3Dの空き地は、ロボット操作に欠かせない3Dオブジェクトの動作可能な領域を強調することを目的としている。
これまでの研究は主に、時間的・因果的な手がかりを明らかにするのに十分な動的相互作用のコンテキストを提供するのに苦労する言語や画像のような静的な手がかりから、手頃な知識を学ぶことに焦点を当てていた。
この事態を緩和するために、我々は16種類の空きタイプ、38のオブジェクトカテゴリ、22Kの点群を含む38Kの人-物-相互作用ビデオを含む、包括的なビデオベースの3D空きデータセットである‘textit{VIDA}’を収集した。
VideoAffordは,多モーダルな大規模言語モデルをアクティベートし,付加的なアベイランスセグメンテーション機能を備えることで,世界的知識推論と,統一されたフレームワーク内でのきめ細かいアベイランスグラウンドの両立を可能にする。
動作理解能力を高めるために、潜時動作エンコーダを用いて、HOIビデオから動的相互作用先を抽出する。
さらに,ビデオAffordが包括的に3次元空間知識を得ることができるように,textit{spatial-aware}損失関数を導入する。
大規模実験により,本モデルが確立された手法を著しく上回り,手頃な推論能力を備えた強力なオープンワールド一般化を示すことが示された。
すべてのデータセットとコードが公開され、この分野の研究が進められる。
関連論文リスト
- Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation [44.64235988574981]
本稿では,データセットをモデルに分散した3次元アセット生成にビデオモダリティを適用する方法について検討する。
マルチビューレベルのアノテーションを備えた最初の大規模ビデオデータセットであるDroplet3D-4Mを導入し、画像入力と高密度テキスト入力の両方をサポートする生成モデルであるDroplet3Dをトレーニングする。
論文 参考訳(メタデータ) (2025-08-28T06:39:41Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model [4.079327215055764]
3Dオブジェクト上で動作可能な領域を識別する作業であるアフォーマンス理解は、ロボットシステムが物理的な世界の中で関わり、操作できるようにする上で重要な役割を担っている。
視覚言語モデル(VLM)は高レベルの推論において優れているが、効果的な人間とロボットの相互作用に必要な微妙な物理的特性の把握には不十分である。
PAVLMは、事前訓練された言語モデルに埋め込まれた広範なマルチモーダル知識を利用して、ポイントクラウドの3Dアベイランス理解を強化する革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-10-15T12:53:42Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。