論文の概要: Escaping Plato's Cave: Robust Conceptual Reasoning through Interpretable 3D Neural Object Volumes
- arxiv url: http://arxiv.org/abs/2503.13429v1
- Date: Mon, 17 Mar 2025 17:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:58.425754
- Title: Escaping Plato's Cave: Robust Conceptual Reasoning through Interpretable 3D Neural Object Volumes
- Title(参考訳): プラトンの洞窟から脱出する:解釈可能な3次元ニューラルオブジェクトボリュームによるロバストな概念推論
- Authors: Nhi Pham, Bernt Schiele, Adam Kortylewski, Jonas Fischer,
- Abstract要約: 画像分類における解釈可能性とロバスト性を統一する新しい方向であるCAVE(Concept Aware Volumes for Explanations)を紹介する。
本研究では,既存の3次元認識型分類器をボリューム表現から抽出した概念で拡張することで,本質的に解釈可能かつ堅牢な分類器を設計する。
解釈可能性のための定量的メトリクスの配列において、説明可能なAI文献全体にわたる異なる概念ベースのアプローチと比較し、CAVEが画像間で一貫して使用されるよく構築された概念を発見し、優れたロバスト性を実現していることを示す。
- 参考スコア(独自算出の注目度): 65.63534641857476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of neural networks, especially in high-stakes applications, these networks need two properties (i) robustness and (ii) interpretability to ensure their safety. Recent advances in classifiers with 3D volumetric object representations have demonstrated a greatly enhanced robustness in out-of-distribution data. However, these 3D-aware classifiers have not been studied from the perspective of interpretability. We introduce CAVE - Concept Aware Volumes for Explanations - a new direction that unifies interpretability and robustness in image classification. We design an inherently-interpretable and robust classifier by extending existing 3D-aware classifiers with concepts extracted from their volumetric representations for classification. In an array of quantitative metrics for interpretability, we compare against different concept-based approaches across the explainable AI literature and show that CAVE discovers well-grounded concepts that are used consistently across images, while achieving superior robustness.
- Abstract(参考訳): ニューラルネットワークの台頭、特にハイテイクなアプリケーションでは、これらのネットワークには2つの特性が必要である。
(i)頑丈さ、および
(二 安全性を確保するための解釈可能性。)
3次元体積オブジェクト表現を持つ分類器の最近の進歩は、アウト・オブ・ディストリビューション・データにおいて、非常に強力な堅牢性を示している。
しかし、これらの3D認識分類器は、解釈可能性の観点からは研究されていない。
画像分類における解釈可能性とロバスト性を統一する新しい方向であるCAVE(Concept Aware Volumes for Explanations)を紹介する。
本研究では,既存の3次元認識型分類器をボリューム表現から抽出した概念で拡張することで,本質的に解釈可能かつ堅牢な分類器を設計する。
解釈可能性のための定量的メトリクスの配列において、説明可能なAI文献全体にわたる異なる概念ベースのアプローチと比較し、CAVEが画像間で一貫して使用されるよく構築された概念を発見し、優れたロバスト性を実現していることを示す。
関連論文リスト
- Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。
本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文 参考訳(メタデータ) (2025-04-05T14:42:13Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - MESC-3D:Mining Effective Semantic Cues for 3D Reconstruction from a Single Image [8.095737075287204]
単一画像からの3次元再構成のためのマイニング有効セマンティックキュース(MESC-3D)と呼ばれる新しい1次元画像再構成法を提案する。
具体的には、ポイントクラウドとイメージセマンティック属性間の接続を確立するための効果的なセマンティックマイニングモジュールを設計する。
このモジュールは空間構造のセマンティックな理解を取り入れており、モデルがより正確でリアルな3Dオブジェクトを解釈し再構築することができる。
論文 参考訳(メタデータ) (2025-02-28T09:02:15Z) - ASCENT-ViT: Attention-based Scale-aware Concept Learning Framework for Enhanced Alignment in Vision Transformers [29.932706137805713]
ASCENT-ViTは、視覚変換器(ViT)のための注意に基づく概念学習フレームワークである。
マルチスケールの特徴ピラミッドとViTパッチの表現から、スケールと位置認識の表現をそれぞれ構成する。
標準的なViTバックボーンの上の分類ヘッドとして利用でき、予測性能を改善し、正確で堅牢な概念説明を行うことができる。
論文 参考訳(メタデータ) (2025-01-16T00:45:05Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning [10.51523800391153]
我々は、VTベースのモデルの3次元認識を評価し、強化する。
本稿では,3次元対応に基づく簡易かつ効果的なファインタニング戦略を提案する。
論文 参考訳(メタデータ) (2024-11-29T04:02:11Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Renderers are Good Zero-Shot Representation Learners: Exploring
Diffusion Latents for Metric Learning [1.0152838128195467]
我々はShap-Eの潜伏空間の計量学習特性を測定するためのプロキシとして検索を利用する。
その結果,Shap-E表現は従来のEfficientNetベースライン表現のゼロショットよりも優れていた。
これらの結果から、3Dベースのレンダリングと生成モデルにより、自然界における識別的タスクに有用な表現が得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-19T06:41:44Z) - NOVUM: Neural Object Volumes for Robust Object Classification [22.411611823528272]
画像分類のためのディープネットワークに3D合成対象表現を明示的に組み込むことにより,配布外シナリオの一般化が大幅に向上することを示す。
特に,対象対象クラス毎に特徴抽出器とニューラルオブジェクト容積からなる,NOVUMと呼ばれる新しいアーキテクチャを導入する。
実験の結果,NOVUMはオブジェクト表現の3次元構成構造のため,標準アーキテクチャよりも興味深い利点があることがわかった。
論文 参考訳(メタデータ) (2023-05-24T03:20:09Z) - Self-Supervised Generative-Contrastive Learning of Multi-Modal Euclidean Input for 3D Shape Latent Representations: A Dynamic Switching Approach [53.376029341079054]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文 参考訳(メタデータ) (2023-01-11T18:14:24Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Understanding Robust Learning through the Lens of Representation
Similarities [37.66877172364004]
ディープニューラルネットワーク(DNN)の望ましい性質として、敵の例に対するロバストさが出現した
本稿では,頑健な学習によって学習される表現の性質が,標準的非破壊的学習から得られた表現とどのように異なるかを理解することを目的とする。
論文 参考訳(メタデータ) (2022-06-20T16:06:20Z) - Spatial-temporal Concept based Explanation of 3D ConvNets [5.461115214431218]
本稿では,3D ConvNet を解釈するための3D ACE (Automatic Concept-based Explanation) フレームワークを提案する。
提案手法では,ビデオは高レベルなスーパーボクセルを用いて表現される。
実験により,本手法は異なる重要度の空間的時間的概念を発見できることが示された。
論文 参考訳(メタデータ) (2022-06-09T08:04:46Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。