論文の概要: Interpretable 3D Neural Object Volumes for Robust Conceptual Reasoning
- arxiv url: http://arxiv.org/abs/2503.13429v2
- Date: Mon, 29 Sep 2025 10:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.222081
- Title: Interpretable 3D Neural Object Volumes for Robust Conceptual Reasoning
- Title(参考訳): ロバストな概念推論のための3次元ニューラルオブジェクトボリュームの解釈
- Authors: Nhi Pham, Artur Jesslen, Bernt Schiele, Adam Kortylewski, Jonas Fischer,
- Abstract要約: CAVE(Concept Aware Volumes for Explanations)は、画像分類における解釈可能性と堅牢性を統一する新しい方向である。
本稿では,概念の空間的整合性を測定する尺度である3次元整合性(3D-C)を提案する。
CAVEは、様々なOOD設定における画像間の一貫性と意味のある概念を発見しながら、競争力のある分類性能を達成する。
- 参考スコア(独自算出の注目度): 68.3379650993108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of deep neural networks, especially in safety-critical applications, robustness and interpretability are crucial to ensure their trustworthiness. Recent advances in 3D-aware classifiers that map image features to volumetric representation of objects, rather than relying solely on 2D appearance, have greatly improved robustness on out-of-distribution (OOD) data. Such classifiers have not yet been studied from the perspective of interpretability. Meanwhile, current concept-based XAI methods often neglect OOD robustness. We aim to address both aspects with CAVE - Concept Aware Volumes for Explanations - a new direction that unifies interpretability and robustness in image classification. We design CAVE as a robust and inherently interpretable classifier that learns sparse concepts from 3D object representation. We further propose 3D Consistency (3D-C), a metric to measure spatial consistency of concepts. Unlike existing metrics that rely on human-annotated parts on images, 3D-C leverages ground-truth object meshes as a common surface to project and compare explanations across concept-based methods. CAVE achieves competitive classification performance while discovering consistent and meaningful concepts across images in various OOD settings. Code available at https://github.com/phamleyennhi/CAVE.
- Abstract(参考訳): ディープニューラルネットワークの台頭、特に安全クリティカルなアプリケーションにおいて、堅牢性と解釈性は、信頼性を確保するために不可欠である。
画像の特徴をオブジェクトの容積表現にマッピングする3D認識分類器の最近の進歩は、2Dの外観にのみ依存するのではなく、アウト・オブ・ディストリビューション(OOD)データに対するロバスト性を大幅に向上させた。
このような分類器は、解釈可能性の観点からはまだ研究されていない。
一方、現在のコンセプトベースのXAIメソッドは、OODの堅牢性を無視することが多い。
画像分類における解釈可能性とロバスト性を統一する新たな方向性であるCAVE(Concept Aware Volumes for Explanations)で両面に対処することを目指している。
我々は3次元オブジェクト表現からスパース概念を学習する頑健で本質的に解釈可能な分類器としてCAVEを設計する。
さらに,概念の空間的整合性を測定する尺度である3次元整合性(3D-C)を提案する。
3D-Cは、画像上の注釈付けされた部分に依存する既存のメトリクスとは異なり、コンセプトベースの手法による説明を投影し比較するために、接地トラスなオブジェクトメッシュを共通の表面として活用する。
CAVEは、様々なOOD設定における画像間の一貫性と意味のある概念を発見しながら、競争力のある分類性能を達成する。
コードはhttps://github.com/phamleyennhi/CAVE.comで公開されている。
関連論文リスト
- Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。
本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文 参考訳(メタデータ) (2025-04-05T14:42:13Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - ASCENT-ViT: Attention-based Scale-aware Concept Learning Framework for Enhanced Alignment in Vision Transformers [29.932706137805713]
ASCENT-ViTは、視覚変換器(ViT)のための注意に基づく概念学習フレームワークである。
マルチスケールの特徴ピラミッドとViTパッチの表現から、スケールと位置認識の表現をそれぞれ構成する。
標準的なViTバックボーンの上の分類ヘッドとして利用でき、予測性能を改善し、正確で堅牢な概念説明を行うことができる。
論文 参考訳(メタデータ) (2025-01-16T00:45:05Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Renderers are Good Zero-Shot Representation Learners: Exploring
Diffusion Latents for Metric Learning [1.0152838128195467]
我々はShap-Eの潜伏空間の計量学習特性を測定するためのプロキシとして検索を利用する。
その結果,Shap-E表現は従来のEfficientNetベースライン表現のゼロショットよりも優れていた。
これらの結果から、3Dベースのレンダリングと生成モデルにより、自然界における識別的タスクに有用な表現が得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-19T06:41:44Z) - NOVUM: Neural Object Volumes for Robust Object Classification [22.411611823528272]
画像分類のためのディープネットワークに3D合成対象表現を明示的に組み込むことにより,配布外シナリオの一般化が大幅に向上することを示す。
特に,対象対象クラス毎に特徴抽出器とニューラルオブジェクト容積からなる,NOVUMと呼ばれる新しいアーキテクチャを導入する。
実験の結果,NOVUMはオブジェクト表現の3次元構成構造のため,標準アーキテクチャよりも興味深い利点があることがわかった。
論文 参考訳(メタデータ) (2023-05-24T03:20:09Z) - Self-Supervised Generative-Contrastive Learning of Multi-Modal Euclidean Input for 3D Shape Latent Representations: A Dynamic Switching Approach [53.376029341079054]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文 参考訳(メタデータ) (2023-01-11T18:14:24Z) - Understanding Robust Learning through the Lens of Representation
Similarities [37.66877172364004]
ディープニューラルネットワーク(DNN)の望ましい性質として、敵の例に対するロバストさが出現した
本稿では,頑健な学習によって学習される表現の性質が,標準的非破壊的学習から得られた表現とどのように異なるかを理解することを目的とする。
論文 参考訳(メタデータ) (2022-06-20T16:06:20Z) - Spatial-temporal Concept based Explanation of 3D ConvNets [5.461115214431218]
本稿では,3D ConvNet を解釈するための3D ACE (Automatic Concept-based Explanation) フレームワークを提案する。
提案手法では,ビデオは高レベルなスーパーボクセルを用いて表現される。
実験により,本手法は異なる重要度の空間的時間的概念を発見できることが示された。
論文 参考訳(メタデータ) (2022-06-09T08:04:46Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。