論文の概要: Escaping Plato's Cave: Robust Conceptual Reasoning through Interpretable 3D Neural Object Volumes
- arxiv url: http://arxiv.org/abs/2503.13429v1
- Date: Mon, 17 Mar 2025 17:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:29:59.558782
- Title: Escaping Plato's Cave: Robust Conceptual Reasoning through Interpretable 3D Neural Object Volumes
- Title(参考訳): プラトンの洞窟から脱出する:解釈可能な3次元ニューラルオブジェクトボリュームによるロバストな概念推論
- Authors: Nhi Pham, Bernt Schiele, Adam Kortylewski, Jonas Fischer,
- Abstract要約: 画像分類における解釈可能性とロバスト性を統一する新しい方向であるCAVE(Concept Aware Volumes for Explanations)を紹介する。
本研究では,既存の3次元認識型分類器をボリューム表現から抽出した概念で拡張することで,本質的に解釈可能かつ堅牢な分類器を設計する。
解釈可能性のための定量的メトリクスの配列において、説明可能なAI文献全体にわたる異なる概念ベースのアプローチと比較し、CAVEが画像間で一貫して使用されるよく構築された概念を発見し、優れたロバスト性を実現していることを示す。
- 参考スコア(独自算出の注目度): 65.63534641857476
- License:
- Abstract: With the rise of neural networks, especially in high-stakes applications, these networks need two properties (i) robustness and (ii) interpretability to ensure their safety. Recent advances in classifiers with 3D volumetric object representations have demonstrated a greatly enhanced robustness in out-of-distribution data. However, these 3D-aware classifiers have not been studied from the perspective of interpretability. We introduce CAVE - Concept Aware Volumes for Explanations - a new direction that unifies interpretability and robustness in image classification. We design an inherently-interpretable and robust classifier by extending existing 3D-aware classifiers with concepts extracted from their volumetric representations for classification. In an array of quantitative metrics for interpretability, we compare against different concept-based approaches across the explainable AI literature and show that CAVE discovers well-grounded concepts that are used consistently across images, while achieving superior robustness.
- Abstract(参考訳): ニューラルネットワークの台頭、特にハイテイクなアプリケーションでは、これらのネットワークには2つの特性が必要である。
(i)頑丈さ、および
(二 安全性を確保するための解釈可能性。)
3次元体積オブジェクト表現を持つ分類器の最近の進歩は、アウト・オブ・ディストリビューション・データにおいて、非常に強力な堅牢性を示している。
しかし、これらの3D認識分類器は、解釈可能性の観点からは研究されていない。
画像分類における解釈可能性とロバスト性を統一する新しい方向であるCAVE(Concept Aware Volumes for Explanations)を紹介する。
本研究では,既存の3次元認識型分類器をボリューム表現から抽出した概念で拡張することで,本質的に解釈可能かつ堅牢な分類器を設計する。
解釈可能性のための定量的メトリクスの配列において、説明可能なAI文献全体にわたる異なる概念ベースのアプローチと比較し、CAVEが画像間で一貫して使用されるよく構築された概念を発見し、優れたロバスト性を実現していることを示す。
関連論文リスト
- ASCENT-ViT: Attention-based Scale-aware Concept Learning Framework for Enhanced Alignment in Vision Transformers [29.932706137805713]
ASCENT-ViTは、視覚変換器(ViT)のための注意に基づく概念学習フレームワークである。
マルチスケールの特徴ピラミッドとViTパッチの表現から、スケールと位置認識の表現をそれぞれ構成する。
標準的なViTバックボーンの上の分類ヘッドとして利用でき、予測性能を改善し、正確で堅牢な概念説明を行うことができる。
論文 参考訳(メタデータ) (2025-01-16T00:45:05Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Renderers are Good Zero-Shot Representation Learners: Exploring
Diffusion Latents for Metric Learning [1.0152838128195467]
我々はShap-Eの潜伏空間の計量学習特性を測定するためのプロキシとして検索を利用する。
その結果,Shap-E表現は従来のEfficientNetベースライン表現のゼロショットよりも優れていた。
これらの結果から、3Dベースのレンダリングと生成モデルにより、自然界における識別的タスクに有用な表現が得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-19T06:41:44Z) - NOVUM: Neural Object Volumes for Robust Object Classification [22.411611823528272]
画像分類のためのディープネットワークに3D合成対象表現を明示的に組み込むことにより,配布外シナリオの一般化が大幅に向上することを示す。
特に,対象対象クラス毎に特徴抽出器とニューラルオブジェクト容積からなる,NOVUMと呼ばれる新しいアーキテクチャを導入する。
実験の結果,NOVUMはオブジェクト表現の3次元構成構造のため,標準アーキテクチャよりも興味深い利点があることがわかった。
論文 参考訳(メタデータ) (2023-05-24T03:20:09Z) - Understanding Robust Learning through the Lens of Representation
Similarities [37.66877172364004]
ディープニューラルネットワーク(DNN)の望ましい性質として、敵の例に対するロバストさが出現した
本稿では,頑健な学習によって学習される表現の性質が,標準的非破壊的学習から得られた表現とどのように異なるかを理解することを目的とする。
論文 参考訳(メタデータ) (2022-06-20T16:06:20Z) - Spatial-temporal Concept based Explanation of 3D ConvNets [5.461115214431218]
本稿では,3D ConvNet を解釈するための3D ACE (Automatic Concept-based Explanation) フレームワークを提案する。
提案手法では,ビデオは高レベルなスーパーボクセルを用いて表現される。
実験により,本手法は異なる重要度の空間的時間的概念を発見できることが示された。
論文 参考訳(メタデータ) (2022-06-09T08:04:46Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。