論文の概要: \textit{FocaLogic}: Logic-Based Interpretation of Visual Model Decisions
- arxiv url: http://arxiv.org/abs/2601.12049v1
- Date: Sat, 17 Jan 2026 13:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.437921
- Title: \textit{FocaLogic}: Logic-Based Interpretation of Visual Model Decisions
- Title(参考訳): \textit{FocaLogic}:ビジュアルモデル決定の論理に基づく解釈
- Authors: Chenchen Zhao, Muxi Chen, Qiang Xu,
- Abstract要約: FocaLogicは、論理に基づく表現を通じて視覚モデル決定を解釈し、定量化するように設計された、モデルに依存しないフレームワークである。
FocaLogicは、視覚領域が終端する視覚焦点の最小の解釈可能なサブセットを識別する。
これらの視覚的焦点を正確でコンパクトな論理的表現に変換し、透明で構造化された解釈を可能にする。
- 参考スコア(独自算出の注目度): 10.53822145558342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability of modern visual models is crucial, particularly in high-stakes applications. However, existing interpretability methods typically suffer from either reliance on white-box model access or insufficient quantitative rigor. To address these limitations, we introduce FocaLogic, a novel model-agnostic framework designed to interpret and quantify visual model decision-making through logic-based representations. FocaLogic identifies minimal interpretable subsets of visual regions-termed visual focuses-that decisively influence model predictions. It translates these visual focuses into precise and compact logical expressions, enabling transparent and structured interpretations. Additionally, we propose a suite of quantitative metrics, including focus precision, recall, and divergence, to objectively evaluate model behavior across diverse scenarios. Empirical analyses demonstrate FocaLogic's capability to uncover critical insights such as training-induced concentration, increasing focus accuracy through generalization, and anomalous focuses under biases and adversarial attacks. Overall, FocaLogic provides a systematic, scalable, and quantitative solution for interpreting visual models.
- Abstract(参考訳): 現代視覚モデルの解釈可能性は非常に重要であり、特に高精細な応用において重要である。
しかし、既存の解釈可能性の手法は、ホワイトボックスモデルアクセスに依存するか、あるいは不十分な量的厳密さに悩まされるのが一般的である。
これらの制約に対処するために、論理に基づく表現を通して視覚モデル決定を解釈・定量化するために設計された新しいモデルに依存しないフレームワークであるFocaLogicを紹介した。
FocaLogicは、視覚領域の最小の解釈可能なサブセットを識別する。
これらの視覚的焦点を正確でコンパクトな論理的表現に変換し、透明で構造化された解釈を可能にする。
さらに,様々なシナリオにおけるモデルの振る舞いを客観的に評価するために,焦点精度,リコール,発散など,定量的な指標のセットを提案する。
実証分析は、FocaLogicが訓練によって引き起こされた集中力、一般化による焦点精度の向上、異常はバイアスや敵攻撃に焦点を合わせるなどの重要な洞察を明らかにする能力を示している。
全体として、FocaLogicは、視覚モデルを解釈するための体系的でスケーラブルで定量的なソリューションを提供する。
関連論文リスト
- Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。
ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。
エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文 参考訳(メタデータ) (2025-12-23T02:44:25Z) - From Black-box to Causal-box: Towards Building More Interpretable Models [57.23201263629627]
本稿では, 因果解釈可能性の概念を導入し, 特定のモデルのクラスから対実的クエリを評価できるときの形式化について述べる。
我々は、与えられたモデルアーキテクチャが与えられた偽物クエリをサポートするかどうかを決定する完全なグラフィカルな基準を導出する。
論文 参考訳(メタデータ) (2025-10-24T20:03:18Z) - Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - Measuring Agreeableness Bias in Multimodal Models [0.3529736140137004]
本稿では,複数モーダル言語モデルにおける画像に対する事前マーク付きオプションがモデル応答に影響を及ぼす現象について検討する。
複数選択質問の画像付きモデルを提示し、まず最初に正解し、次に予めマークされたオプションで同じモデルをバージョンに公開する。
この結果から,中立条件下での回答に矛盾する場合でも,事前マーク付きオプションに対するモデルの反応が著しく変化していることが判明した。
論文 参考訳(メタデータ) (2024-08-17T06:25:36Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。