論文の概要: Grounding 3D Object Affordance from 2D Interactions in Images
- arxiv url: http://arxiv.org/abs/2303.10437v2
- Date: Wed, 9 Aug 2023 07:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:48:32.112095
- Title: Grounding 3D Object Affordance from 2D Interactions in Images
- Title(参考訳): 画像中の2次元相互作用による3次元物体の接地
- Authors: Yuhang Yang, Wei Zhai, Hongchen Luo, Yang Cao, Jiebo Luo, Zheng-Jun
Zha
- Abstract要約: 接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
- 参考スコア(独自算出の注目度): 128.6316708679246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding 3D object affordance seeks to locate objects' ''action
possibilities'' regions in the 3D space, which serves as a link between
perception and operation for embodied agents. Existing studies primarily focus
on connecting visual affordances with geometry structures, e.g. relying on
annotations to declare interactive regions of interest on the object and
establishing a mapping between the regions and affordances. However, the
essence of learning object affordance is to understand how to use it, and the
manner that detaches interactions is limited in generalization. Normally,
humans possess the ability to perceive object affordances in the physical world
through demonstration images or videos. Motivated by this, we introduce a novel
task setting: grounding 3D object affordance from 2D interactions in images,
which faces the challenge of anticipating affordance through interactions of
different sources. To address this problem, we devise a novel
Interaction-driven 3D Affordance Grounding Network (IAG), which aligns the
region feature of objects from different sources and models the interactive
contexts for 3D object affordance grounding. Besides, we collect a Point-Image
Affordance Dataset (PIAD) to support the proposed task. Comprehensive
experiments on PIAD demonstrate the reliability of the proposed task and the
superiority of our method. The project is available at
https://github.com/yyvhang/IAGNet.
- Abstract(参考訳): 接地3dオブジェクトアフォーダンスは、3d空間内の「動作可能性」領域を探究し、その領域は具体化エージェントの知覚と操作のリンクとなる。
既存の研究は主に視覚的なアプライアンスと幾何学的構造をつなぐことに焦点を当てており、例えば、オブジェクトに対する興味のあるインタラクティブな領域を宣言し、その領域とアプライアンスの間のマッピングを確立するためにアノテーションに依存する。
しかし、学習対象の余裕の本質は、その使い方を理解することであり、相互作用を分離する方法は、一般化において限られている。
通常、人間は、実演画像やビデオを通して、物理的世界の物価を知覚する能力を持っている。
画像内の2dインタラクションから3dオブジェクトアプライアンスを接地し、異なるソース間のインタラクションを通じてアプライアンスを予測するという課題に直面する。
この問題に対処するため,我々は,異なるソースからのオブジェクトの領域特性を整合させ,対話的コンテキストをモデル化するインタラクション駆動型3dアプライアンスグラウンドネットワーク (iag) を考案する。
さらに,提案タスクをサポートするために,PIAD(Point-Image Affordance Dataset)を収集する。
PIADに関する総合的な実験は,提案課題の信頼性と提案手法の優越性を実証している。
プロジェクトはhttps://github.com/yyvhang/iagnetで入手できる。
関連論文リスト
- AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from
Unbounded Synthesized Images [10.4286198282079]
本研究では,3次元における多種多様な物体間相互作用の空間的共通感覚を理解し,モデル化する手法を提案する。
我々は、人間が同じ種類の物体と対話するとき、異なる視点から撮影した複数の2D画像を示す。
実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-08-23T17:59:11Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。