論文の概要: Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2406.12649v1
- Date: Tue, 18 Jun 2024 14:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:38:36.966022
- Title: Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models
- Title(参考訳): 確率論的概念記述者:ビジョン基礎モデルのための信頼できる概念記述
- Authors: Hengyi Wang, Shiwei Tan, Hao Wang,
- Abstract要約: 本稿では, 信頼度, 安定度, 疎度, マルチレベル構造, パーシモニーの5つのViTを説明するデシラタを提案する。
PACE(ProbAbilistic Concept Explainers)と呼ばれる変分ベイズの説明フレームワークを導入する。
- 参考スコア(独自算出の注目度): 6.747023750015197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have emerged as a significant area of focus, particularly for their capacity to be jointly trained with large language models and to serve as robust vision foundation models. Yet, the development of trustworthy explanation methods for ViTs has lagged, particularly in the context of post-hoc interpretations of ViT predictions. Existing sub-image selection approaches, such as feature-attribution and conceptual models, fall short in this regard. This paper proposes five desiderata for explaining ViTs -- faithfulness, stability, sparsity, multi-level structure, and parsimony -- and demonstrates the inadequacy of current methods in meeting these criteria comprehensively. We introduce a variational Bayesian explanation framework, dubbed ProbAbilistic Concept Explainers (PACE), which models the distributions of patch embeddings to provide trustworthy post-hoc conceptual explanations. Our qualitative analysis reveals the distributions of patch-level concepts, elucidating the effectiveness of ViTs by modeling the joint distribution of patch embeddings and ViT's predictions. Moreover, these patch-level explanations bridge the gap between image-level and dataset-level explanations, thus completing the multi-level structure of PACE. Through extensive experiments on both synthetic and real-world datasets, we demonstrate that PACE surpasses state-of-the-art methods in terms of the defined desiderata.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、特に大きな言語モデルと共同でトレーニングし、堅牢なビジョン基盤モデルとして機能する能力に重点を置いている。
しかし、ViTの信頼性のある説明法の開発は、特にViT予測のポストホック解釈の文脈において遅れを取っている。
特徴属性や概念モデルといった既存のサブイメージ選択アプローチは、この点では不十分である。
本稿では, 信頼度, 安定度, 疎度, マルチレベル構造, パーシモニーを5つのデシラタで説明し, これらの基準を包括的に満たす上での現在の手法の不十分さを実証する。
本稿では,PACE (ProbAbilistic Concept Explainers) と呼ばれる変分ベイズ的説明フレームワークを導入し,パッチ埋め込みの分布をモデル化し,信頼性の高いポストホックな概念的説明を提供する。
我々の定性的分析はパッチレベルの概念の分布を明らかにし、パッチ埋め込みとViTの予測の連成分布をモデル化することにより、ViTsの有効性を解明する。
さらに、これらのパッチレベルの説明は、画像レベルとデータセットレベルの説明のギャップを埋め、PACEのマルチレベル構造を完成させる。
合成と実世界の両方のデータセットに関する広範な実験を通じて、PACEが定義されたデシダラタ(deiderata)の観点で最先端の手法を超越していることが実証された。
関連論文リスト
- Visual Data Diagnosis and Debiasing with Concept Graphs [50.84781894621378]
視覚データセットにおける概念共起バイアスの診断と緩和のためのフレームワークであるConBiasを提案する。
このような不均衡を緩和し,下流タスクの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:59:01Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - DEAL: Disentangle and Localize Concept-level Explanations for VLMs [10.397502254316645]
大きな訓練済みのビジョンランゲージモデルでは、きめ細かい概念を特定できないかもしれない。
本研究では,人間のアノテーションを使わずに概念のDisEnt and Localize(アングル)概念レベルの説明を提案する。
実験結果から,提案手法はモデルの概念レベルの説明を,不整合性と局所性の観点から著しく改善することを示した。
論文 参考訳(メタデータ) (2024-07-19T15:39:19Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Coarse-to-Fine Concept Bottleneck Models [9.910980079138206]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。
この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。