論文の概要: Scaling Vision Models Does Not Consistently Improve Localisation-Based Explanation Quality
- arxiv url: http://arxiv.org/abs/2605.10142v1
- Date: Mon, 11 May 2026 07:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.618739
- Title: Scaling Vision Models Does Not Consistently Improve Localisation-Based Explanation Quality
- Title(参考訳): ビジョンモデルのスケーリングは、ローカライゼーションベースの説明品質を継続的に改善しない
- Authors: Mateusz Cedro, Marcin Chlebus,
- Abstract要約: 深度と複雑さの増大を表すコンピュータビジョンモデルを11種類評価する。
各モデルに対して、5つのポストホックな説明可能なAI手法を用いて説明を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence models are increasingly scaled to improve predictive accuracy, yet it remains unclear whether scale improves the quality of post-hoc explanations. We investigate this relationship by evaluating 11 computer vision models representing increasing levels of depth and complexity within the ResNet, DenseNet, and Vision Transformer families, trained from scratch or pretrained, across three image datasets with ground-truth segmentation masks. For each model, we generate explanations using five post-hoc explainable AI methods and quantify mask alignment using two localisation metrics: Relevance Rank Accuracy (Arras et al., 2022) and the proposed Dual-Polarity Precision, which measures positive attributions inside the class mask and negative attributions outside it. Across datasets and methods, increasing architectural depth and parameter count does not improve explanation quality in most statistical comparisons, and smaller models often match or exceed deeper variants. While pretraining typically improves predictive performance and increases the dependence of explanations on learned weights, it does not consistently increase localisation scores. We also observe scenarios in which models achieve strong predictive performance while localisation precision is near zero, suggesting that performance metrics alone may not indicate whether predictions are based on the annotated regions. These results indicate that larger models do not reliably provide higher-quality explanations, and that explainability should therefore be assessed explicitly during model selection for safety-sensitive deployments.
- Abstract(参考訳): 人工知能モデルは、予測精度を向上させるためにますますスケールされているが、スケールがポストホックな説明の質を改善するかどうかは不明だ。
本研究は,3つの画像データセットを用いて,ResNet,DenseNet,Vision Transformerファミリー内の深度と複雑さの増大を表すコンピュータビジョンモデルの評価を行った。
各モデルに対して、5つのポストホックなAI手法を用いて説明を生成し、関連ランク精度(Arras et al , 2022)と、クラスマスク内の正の属性と外部の負の属性を測定するデュアルポーラリティ精度(Dual-Polarity Precision)という2つのローカライゼーション指標を用いてマスクアライメントを定量化する。
データセットとメソッド全体にわたって、アーキテクチャの深さとパラメータ数の増加は、ほとんどの統計的比較では説明の質を向上しない。
プレトレーニングは通常、予測性能を改善し、学習した重みに対する説明の依存を増加させるが、常にローカライズスコアを増加させるわけではない。
また,局所化精度が0に近づき,モデルが強い予測性能を達成するシナリオも観察し,アノテートされた領域に基づいて予測を行うかどうかの指標だけでは示さない可能性が示唆された。
これらの結果から,より大規模なモデルでは信頼性の高い説明が得られず,安全性に配慮した配置のためのモデル選択において,説明可能性を明確に評価すべきであることが示唆された。
関連論文リスト
- Explaining Machine Learning Predictive Models through Conditional Expectation Methods [0.0]
MUCEは、特徴的相互作用から予測変化を捉えるために設計された局所的説明可能性のモデルに依存しない手法である。
安定性と不確実性の2つの定量的指標は、局所的な振る舞いを要約し、モデルの信頼性を評価する。
その結果、MUCEは複雑な局所モデル挙動を効果的に捉え、安定性と不確実性指標は予測信頼性に有意義な洞察を与えることが示された。
論文 参考訳(メタデータ) (2026-01-12T08:34:36Z) - Advancing Text Classification with Large Language Models and Neural Attention Mechanisms [11.31737492247233]
このフレームワークには、テキストエンコーディング、コンテキスト表現モデリング、注意に基づく拡張、分類予測が含まれる。
その結果,提案手法はすべての指標において既存モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-12-10T09:18:41Z) - Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - The Inter-Intra Modal Measure: A Predictive Lens on Fine-Tuning Outcomes in Vision-Language Models [6.7181844004432385]
Intra Modal Measure (IIMM) は、モーダル内画像の類似性とモーダル間不一致の関係を定量化する予測指標である。
既存の転送可能性測定と比較して、IIMMはデュアルエンコーダモデルにおける微調整後の精度変化に対して、はるかに強い予測力を示す。
我々は、IIMMの変化が、事前と後調整の埋め込みの間のワッサーシュタイン距離によって制限されていることを証明した理論的境界を与える。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Closer Look at the Uncertainty Estimation in Semantic Segmentation under
Distributional Shift [2.05617385614792]
セマンティックセグメンテーションのタスクの不確かさをドメインシフトの異なるレベルで評価する。
単純な色変換は、既に強いベースラインを提供していることが示されている。
モデルのアンサンブルは、擬似ラベル生成を改善するために自己学習設定に利用された。
論文 参考訳(メタデータ) (2021-05-31T19:50:43Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。