論文の概要: SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis
- arxiv url: http://arxiv.org/abs/2603.13884v1
- Date: Sat, 14 Mar 2026 10:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.467479
- Title: SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis
- Title(参考訳): SCoCCA:正準相関解析によるマルチモーダルスパース概念分解
- Authors: Ehud Gordon, Meir Yossef Levi, Guy Gilboa,
- Abstract要約: CCA(Concept CCA)は,解釈可能な概念分解を実現しつつ,クロスモーダルな埋め込みを整列するフレームワークである。
我々はスパースの概念CCA(ScoCCA)を提案する。
提案手法は, 概念に基づくマルチモーダル埋め込みの説明を一般化し, 概念発見における最先端の性能向上を促進する。
- 参考スコア(独自算出の注目度): 7.4746628878102195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting the internal reasoning of vision-language models is essential for deploying AI in safety-critical domains. Concept-based explainability provides a human-aligned lens by representing a model's behavior through semantically meaningful components. However, existing methods are largely restricted to images and overlook the cross-modal interactions. Text-image embeddings, such as those produced by CLIP, suffer from a modality gap, where visual and textual features follow distinct distributions, limiting interpretability. Canonical Correlation Analysis (CCA) offers a principled way to align features from different distributions, but has not been leveraged for multi-modal concept-level analysis. We show that the objectives of CCA and InfoNCE are closely related, such that optimizing CCA implicitly optimizes InfoNCE, providing a simple, training-free mechanism to enhance cross-modal alignment without affecting the pre-trained InfoNCE objective. Motivated by this observation, we couple concept-based explainability with CCA, introducing Concept CCA (CoCCA), a framework that aligns cross-modal embeddings while enabling interpretable concept decomposition. We further extend it and propose Sparse Concept CCA (SCoCCA), which enforces sparsity to produce more disentangled and discriminative concepts, facilitating improved activation, ablation, and semantic manipulation. Our approach generalizes concept-based explanations to multi-modal embeddings and achieves state-of-the-art performance in concept discovery, evidenced by reconstruction and manipulation tasks such as concept ablation.
- Abstract(参考訳): 視覚言語モデルの内部推論を解釈することは、安全クリティカルなドメインにAIをデプロイするために不可欠である。
概念に基づく説明可能性(concept-based explainability)は、意味論的に意味のあるコンポーネントを通してモデルの振舞いを表現することで、人間に沿ったレンズを提供する。
しかし、既存の手法は画像に限られており、モーダル間相互作用を見落としている。
CLIPが生成したようなテキストイメージの埋め込みは、視覚的特徴とテキスト的特徴が異なる分布に従っており、解釈可能性を制限する、モダリティギャップに悩まされる。
カノニカル相関解析(CCA)は、異なる分布から特徴を整列する原理的な方法を提供するが、マルチモーダルな概念レベルの分析には利用されていない。
CCAとInfoNCEの目的は密接に関連していることを示し、CCAの最適化はInfoNCEを暗黙的に最適化し、事前訓練されたInfoNCEの目的に影響を与えずに、モダル間のアライメントを強化するためのシンプルなトレーニング不要のメカニズムを提供する。
この観察により,概念に基づく説明可能性とCAA(Concept CCA)を結合し,解釈可能な概念分解を実現するとともに,クロスモーダルな埋め込みを整列するフレームワークであるConcept CCA(Concept CCA)を導入する。
さらにこれを拡張し、スパースの概念CCA(ScoCCA)を提案し、より疎結合で差別的な概念を創出し、アクティベーションの改善、アブレーション、セマンティック操作を容易にする。
提案手法は, マルチモーダル埋め込みに対する概念に基づく説明を一般化し, 概念発見における最先端のパフォーマンスを実現する。
関連論文リスト
- Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition [81.2779530670268]
VLM(Vision-Language Models)は、ゼロショット画像認識を著しく進歩させたモデルである。
本稿では、クラス固有の概念を取り入れることで、プロンプトを強化する。
我々の手法は一貫して最先端の手法より優れている。
論文 参考訳(メタデータ) (2026-03-09T03:11:11Z) - Rethinking Concept Bottleneck Models: From Pitfalls to Solutions [53.84388497227224]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念の基底予測である。
CBM-Suiteはこれらの課題に対処するための方法論的なフレームワークである。
論文 参考訳(メタデータ) (2026-03-05T19:37:49Z) - Concept Component Analysis: A Principled Approach for Concept Extraction in LLMs [51.378834857406325]
機械的解釈可能性(Mechanistic interpretability)は、大きな言語モデルからの抽出によって問題を緩和しようとする。
スパースオートエンコーダ (SAE) は、解釈可能・単意味的な概念を抽出するための一般的なアプローチである。
SAEは基本的な理論的曖昧さに悩まされており、LLM表現と人間解釈可能な概念との明確に定義された対応はいまだに不明である。
論文 参考訳(メタデータ) (2026-01-28T09:27:05Z) - Towards more holistic interpretability: A lightweight disentangled Concept Bottleneck Model [5.700536552863068]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念を中間表現として予測することにより、解釈可能性を高める。
本稿では,視覚的特徴を意味論的に意味のある構成要素に自動的に分類する軽量なDECBMを提案する。
3つの多様なデータセットの実験により、LCDBMはより高い概念とクラス精度を達成し、解釈可能性と分類性能の両方において従来のCBMよりも優れていたことが示されている。
論文 参考訳(メタデータ) (2025-10-17T15:59:30Z) - FACE: Faithful Automatic Concept Extraction [4.417419748257645]
FACE(Faithful Automatic Concept extract)は、KL(Kullback-Leibler)の発散正規化項で非負行列因子化(NMF)を強化する新しいフレームワークである。
我々は,KL分散の最小化が予測分布の偏差を制限し,学習された概念空間における忠実な局所線型性を促進することを理論的保証する。
論文 参考訳(メタデータ) (2025-10-13T17:44:45Z) - Analyzing Latent Concepts in Code Language Models [10.214183897113118]
グローバルなポストホック解釈可能性フレームワークであるコード概念分析(CoCoA)を提案する。
CoCoAは、コード言語モデルの表現空間における創発的語彙、構文、意味構造を明らかにする。
本稿では,静的解析ツールをベースとした構文アライメントと,プロンプトエンジニアリングによる大規模言語モデルを組み合わせたハイブリッドアノテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-01T03:53:21Z) - Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。