論文の概要: IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments
- arxiv url: http://arxiv.org/abs/2504.06827v1
- Date: Wed, 09 Apr 2025 12:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:13.192487
- Title: IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments
- Title(参考訳): IAAO:3次元環境における人工物体の対話的アフォーマンス学習
- Authors: Can Zhang, Gim Hee Lee,
- Abstract要約: IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
- 参考スコア(独自算出の注目度): 56.85804719947
- License:
- Abstract: This work presents IAAO, a novel framework that builds an explicit 3D model for intelligent agents to gain understanding of articulated objects in their environment through interaction. Unlike prior methods that rely on task-specific networks and assumptions about movable parts, our IAAO leverages large foundation models to estimate interactive affordances and part articulations in three stages. We first build hierarchical features and label fields for each object state using 3D Gaussian Splatting (3DGS) by distilling mask features and view-consistent labels from multi-view images. We then perform object- and part-level queries on the 3D Gaussian primitives to identify static and articulated elements, estimating global transformations and local articulation parameters along with affordances. Finally, scenes from different states are merged and refined based on the estimated transformations, enabling robust affordance-based interaction and manipulation of objects. Experimental results demonstrate the effectiveness of our method.
- Abstract(参考訳): IAAOは知的エージェントのための明示的な3Dモデルを構築し、対話を通じて環境内の明瞭な物体の理解を得る。
タスク固有のネットワークや可動部分に関する仮定に依存する従来の手法とは異なり、IAAOは大きな基盤モデルを利用して対話的な余裕を推定し、3段階の調音を推定する。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
最後に、異なる状態からのシーンは、推定された変換に基づいてマージされ、洗練され、堅牢なアベイランスベースの相互作用とオブジェクトの操作を可能にする。
実験の結果,本手法の有効性が示された。
関連論文リスト
- GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - SADG: Segment Any Dynamic Gaussian Without Object Trackers [39.77468734311312]
SADG(Segment Any Dynamic Gaussian Without Object Trackers)は、オブジェクトIDに依存しない動的ガウス分割表現と意味情報を組み合わせた新しいアプローチである。
我々は,Segment Anything Model(SAM)から生成されるマスクを活用し,ハードピクセルマイニングに基づく新しいコントラスト学習目標を活用することで,意味論的特徴を学習する。
提案したベンチマーク上でSADGを評価し,動的シーン内のオブジェクトのセグメンテーションにおけるアプローチの優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-28T17:47:48Z) - Go-SLAM: Grounded Object Segmentation and Localization with Gaussian Splatting SLAM [12.934788858420752]
Go-SLAMは動的環境の再構築に3DガウススティングSLAMを利用する新しいフレームワークである。
本システムは,自然言語記述によるオブジェクトの検索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T13:56:08Z) - Object-Oriented Material Classification and 3D Clustering for Improved Semantic Perception and Mapping in Mobile Robots [6.395242048226456]
本稿では,オブジェクト指向パイプライン上に構築されたRGB-D教材分類のための補足型ディープラーニング手法を提案する。
本研究では,3次元セマンティックシーンマッピングの最先端手法と比較して,材料分類と3次元クラスタリングの精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-08T16:25:01Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D
Visual Grounding [15.617150859765024]
我々はTransformerを、置換不変な3次元点群データに対する自然な適合性に活用する。
本稿では,エンティティとリレーショナルを意識したマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。
提案手法は既存手法を最大10.6%上回る性能を示した。
論文 参考訳(メタデータ) (2021-08-05T05:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。