論文の概要: Learning 2D Invariant Affordance Knowledge for 3D Affordance Grounding
- arxiv url: http://arxiv.org/abs/2408.13024v1
- Date: Fri, 23 Aug 2024 12:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 15:10:31.025504
- Title: Learning 2D Invariant Affordance Knowledge for 3D Affordance Grounding
- Title(参考訳): 3次元起伏接地のための2次元不変精度知識の学習
- Authors: Xianqiang Gao, Pingrui Zhang, Delin Qu, Dong Wang, Zhigang Wang, Yan Ding, Bin Zhao, Xuelong Li,
- Abstract要約: 我々はtextbf-textbfImage Guided Invariant-textbfFeature-Aware 3D textbfAffordance textbfGrounding frameworkを紹介した。
複数の人間と物体の相互作用画像に共通する相互作用パターンを同定することにより、3Dオブジェクトの空き領域を推定する。
- 参考スコア(独自算出の注目度): 46.05283810364663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Object Affordance Grounding aims to predict the functional regions on a 3D object and has laid the foundation for a wide range of applications in robotics. Recent advances tackle this problem via learning a mapping between 3D regions and a single human-object interaction image. However, the geometric structure of the 3D object and the object in the human-object interaction image are not always consistent, leading to poor generalization. To address this issue, we propose to learn generalizable invariant affordance knowledge from multiple human-object interaction images within the same affordance category. Specifically, we introduce the \textbf{M}ulti-\textbf{I}mage Guided Invariant-\textbf{F}eature-Aware 3D \textbf{A}ffordance \textbf{G}rounding (\textbf{MIFAG}) framework. It grounds 3D object affordance regions by identifying common interaction patterns across multiple human-object interaction images. First, the Invariant Affordance Knowledge Extraction Module (\textbf{IAM}) utilizes an iterative updating strategy to gradually extract aligned affordance knowledge from multiple images and integrate it into an affordance dictionary. Then, the Affordance Dictionary Adaptive Fusion Module (\textbf{ADM}) learns comprehensive point cloud representations that consider all affordance candidates in multiple images. Besides, the Multi-Image and Point Affordance (\textbf{MIPA}) benchmark is constructed and our method outperforms existing state-of-the-art methods on various experimental comparisons. Project page: \url{https://goxq.github.io/mifag}
- Abstract(参考訳): 3D Object Affordance Groundingは、3Dオブジェクト上の機能領域を予測することを目的としており、ロボット工学における幅広い応用の基礎を築いた。
近年の進歩は、3D領域と1つの人間と物体の相互作用画像のマッピングを学習することでこの問題に対処している。
しかし、人間と物体の相互作用画像における3次元物体と物体の幾何学的構造は必ずしも一致しないため、一般化は不十分である。
この問題に対処するために,我々は,複数の人間と物体の相互作用画像から,同じ空き圏内での一般化可能な不変空き領域の知識を学習することを提案する。
具体的には, <textbf{M}ulti-\textbf{I}mage Guided Invariant-\textbf{F}eature-Aware 3D \textbf{A}ffordance \textbf{G}rounding (\textbf{MIFAG}) フレームワークを紹介する。
複数の人間と物体の相互作用画像に共通する相互作用パターンを同定することにより、3Dオブジェクトの空き領域を推定する。
Invariant Affordance Knowledge extract Module (\textbf{IAM}) は、反復的な更新戦略を用いて、複数の画像から段階的に整列したアプライアンス知識を抽出し、アプライアンス辞書に統合する。
次に、Affordance Dictionary Adaptive Fusion Module (\textbf{ADM}) は、複数の画像におけるすべての空き候補を考慮に入れた総合的なポイントクラウド表現を学習する。
さらに,Multi-Image and Point Affordance (\textbf{MIPA}) ベンチマークを構築し,提案手法は様々な比較実験において既存の最先端手法よりも優れていた。
プロジェクトページ: \url{https://goxq.github.io/mifag}
関連論文リスト
- PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from
Unbounded Synthesized Images [10.4286198282079]
本研究では,3次元における多種多様な物体間相互作用の空間的共通感覚を理解し,モデル化する手法を提案する。
我々は、人間が同じ種類の物体と対話するとき、異なる視点から撮影した複数の2D画像を示す。
実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-08-23T17:59:11Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models [18.315856283440386]
ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解といった2Dおよび言語タスクにおいて顕著な成果を上げている。
3Dシーンの表現学習を豊かにする能力は、ドメインギャップの存在によってほとんど失われる。
そこで我々は,Bridge3Dと呼ばれる斬新な手法を提案し,特徴,セマンティックマスク,基礎モデルからのソースキャプションを用いた3Dモデルの事前学習を行った。
論文 参考訳(メタデータ) (2023-05-15T16:36:56Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。