論文の概要: Interpretable Affordance Detection on 3D Point Clouds with Probabilistic Prototypes
- arxiv url: http://arxiv.org/abs/2504.18355v1
- Date: Fri, 25 Apr 2025 13:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.785675
- Title: Interpretable Affordance Detection on 3D Point Clouds with Probabilistic Prototypes
- Title(参考訳): 確率的プロトタイプを用いた3次元点雲の解釈的精度検出
- Authors: Maximilian Xiling Li, Korbinian Rudolf, Nils Blank, Rudolf Lioutikov,
- Abstract要約: 本研究では,3次元点雲の空き度検出モデルにプロトタイプ学習を適用した。
3D-AffordanceNetベンチマークデータセットの実験は、プロトタイプモデルが競合性能を達成することを示す。
これにより、プロトタイプモデルが人間とロボットの相互作用シナリオの候補となる。
- 参考スコア(独自算出の注目度): 2.0599237172837523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic agents need to understand how to interact with objects in their environment, both autonomously and during human-robot interactions. Affordance detection on 3D point clouds, which identifies object regions that allow specific interactions, has traditionally relied on deep learning models like PointNet++, DGCNN, or PointTransformerV3. However, these models operate as black boxes, offering no insight into their decision-making processes. Prototypical Learning methods, such as ProtoPNet, provide an interpretable alternative to black-box models by employing a "this looks like that" case-based reasoning approach. However, they have been primarily applied to image-based tasks. In this work, we apply prototypical learning to models for affordance detection on 3D point clouds. Experiments on the 3D-AffordanceNet benchmark dataset show that prototypical models achieve competitive performance with state-of-the-art black-box models and offer inherent interpretability. This makes prototypical models a promising candidate for human-robot interaction scenarios that require increased trust and safety.
- Abstract(参考訳): ロボットエージェントは、自律的および人間とロボットの相互作用の間、環境内のオブジェクトとどのように相互作用するかを理解する必要がある。
特定のインタラクションを許容するオブジェクトリージョンを識別する3Dポイントクラウドでのアフォーマンス検出は、従来、PointNet++、DGCNN、PointTransformerV3といったディープラーニングモデルに依存してきた。
しかし、これらのモデルはブラックボックスとして機能し、意思決定プロセスに関する洞察を与えない。
ProtoPNetのような原型学習手法は、ケースベースの推論アプローチを用いてブラックボックスモデルの解釈可能な代替手段を提供する。
しかし、主に画像ベースのタスクに適用されている。
本研究では,3次元点雲における可視性検出のためのモデルにプロトタイプ学習を適用した。
3D-AffordanceNetベンチマークデータセットの実験では、プロトタイプモデルは最先端のブラックボックスモデルと競合し、固有の解釈性を提供する。
これにより、プロトタイプモデルは、信頼性と安全性の向上を必要とする人間とロボットの相互作用シナリオの有望な候補となる。
関連論文リスト
- Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。
我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。
Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文 参考訳(メタデータ) (2025-04-30T15:42:23Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - 3D Shape Tokenization via Latent Flow Matching [38.28217561449967]
我々は3次元曲面を3次元の確率密度関数、すなわちp(x,y,z)をフローマッチングでモデル化する潜在3次元表現を導入する。
私たちの表現は、特に機械学習モデルによる消費のために設計されており、ポイントクラウドと最小限のデータ前処理を必要としながら、構築による連続性とコンパクト性を提供します。
論文 参考訳(メタデータ) (2024-12-20T07:22:41Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Inter-model Interpretability: Self-supervised Models as a Case Study [0.2578242050187029]
テキスト・インター・モデル・インタプリタビリティを導入するためのDissectと呼ばれる最近の解釈可能性技術を構築した。
我々は、学習概念の観点から、モデル間の近さを明らかにする学習概念埋め込み空間に、トップパフォーマンスの自己教師型モデル13を投影する。
この実験により、モデルを3つのカテゴリに分類し、異なるタスクが必要とする視覚概念の種類を初めて明らかにしました。
論文 参考訳(メタデータ) (2022-07-24T22:50:18Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - PolyGen: An Autoregressive Generative Model of 3D Meshes [22.860421649320287]
本稿では,Transformerベースのアーキテクチャを用いてメッシュを直接モデル化するアプローチを提案する。
我々のモデルは、オブジェクトクラス、ボクセル、イメージなど、様々な入力を条件にすることができる。
このモデルでは、高品質で使い勝手の良いメッシュを生成でき、メッシュモデリングタスクのためのログライクなベンチマークを確立することができる。
論文 参考訳(メタデータ) (2020-02-23T17:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。