Fugu-MT 論文翻訳(概要): Explaining is Harder Than Predicting Alone: Evaluating Concept-based Explanations of MLLMs as ICL Visual Classifiers

論文の概要: Explaining is Harder Than Predicting Alone: Evaluating Concept-based Explanations of MLLMs as ICL Visual Classifiers

arxiv url: http://arxiv.org/abs/2605.28215v1
Date: Wed, 27 May 2026 09:32:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.93453
Title: Explaining is Harder Than Predicting Alone: Evaluating Concept-based Explanations of MLLMs as ICL Visual Classifiers
Title（参考訳）: ICL視覚分類器としてのMLLMの概念に基づく説明の評価
Authors: Carmen Quiles-Ramírez, Leticia L. Rodríguez, Nicolás Martorell, Natalia Díaz-Rodríguez,
Abstract要約: In-context Learning (ICL) は、マルチモーダルな大言語モデル(MLLM)をラベル付き例から分類することを可能にする。数発のICL条件下での凍結MLLMの概念に基づく説明可能性について, 形式的厳密度を増大させる5つの条件を用いて検討した。
参考スコア（独自算出の注目度）: 0.47248250311484113
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context learning (ICL) enables multimodal large language models (MLLMs) to classify images from a few labelled examples. Yet, how these models use the provided context remains opaque. While Chain-of-Thought prompting is widely used, recent work argues that it may not reflect true internal computation. In this paper, we systematically evaluate the concept-based explainability of frozen MLLMs under few-shot ICL using five conditions of increasing formal rigour, ranging from baseline classification to Description Logics (DL) axiom generation. Evaluating four state-of-the-art MLLMs via an independent LLM-as-a-judge pipeline, we demonstrate that explaining is genuinely harder than predicting alone. Surprisingly, forcing models to generate formally structured, concept-based explanations degrades predictive accuracy monotonically (from 93.8% to 90.1%), contradicting the assumption that explicit reasoning universally aids performance. However, when models successfully articulate class-discriminative visual features, explanation quality strongly correlates with correct predictions. Our findings suggest that while MLLMs excel at visual classification, they lack the specific instruction-tuning required for formal, machine-verifiable explainability.
Abstract（参考訳）: In-context Learning (ICL) は、マルチモーダルな大言語モデル(MLLM)をラベル付き例から分類することを可能にする。しかし、これらのモデルがどのように提供されたコンテキストを使用するかは、いまだ不透明である。 Chain-of-Thoughtプロンプトは広く使われているが、最近の研究は、真の内部計算を反映していないかもしれないと主張している。本稿では,MLLMの概念に基づく説明可能性について,ベースライン分類から記述論理(DL)の公理生成まで,形式的厳密度を増大させる5つの条件を用いて体系的に評価する。独立LLM-as-a-judgeパイプラインを用いて、4つの最先端MLLMを評価することで、説明が単独で予測するよりも真に難しいことを実証する。予想精度(93.8%から90.1%)を単調に低下させ、明示的な推論がパフォーマンスを普遍的に助けるという仮定に反している。しかし、モデルがクラス識別視覚特徴をうまく表すことができれば、説明品質は正しい予測と強く相関する。この結果から,MLLMは視覚的分類に優れるが,機械で検証可能な形式的説明性に要求される命令調整が欠如していることが示唆された。

関連論文リスト

LLMs Explain't: A Post-Mortem on Semantic Interpretability in Transformer Models [3.7965260744113163]
大きな言語モデル(LLM)は、その汎用性と強力なパフォーマンスのために、広範にコンピューティングで人気が高まっている。本稿では,LLMにおいて言語的抽象化がどのように現れるのかを考察し,異なるモジュール間で言語的抽象化を検出することを目的とする。注意に基づく説明は、後層表現がトークンに対応しているというコア仮定をテストすると、崩壊します。埋め込みに適用される特性推論法も、その高い予測スコアが、方法論的アーティファクトとデータセット構造によって駆動されたため失敗した。
論文参考訳（メタデータ） (2026-01-30T12:46:37Z)
From latent factors to language: a user study on LLM-generated explanations for an inherently interpretable matrix-based recommender system [8.280161440212504]
大規模言語モデル(LLM)が数学的に解釈可能なレコメンデーションモデルから,効果的なユーザ向け説明を生成できるかどうかを検討する。本研究は,5次元にわたる説明の質を評価する326人の被験者を対象に実施した。分析の結果、全ての説明型は概ね好意的であり、戦略間の統計的差異は緩やかであることがわかった。
論文参考訳（メタデータ） (2025-09-23T13:30:03Z)
Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring [18.837335987273256]
大規模言語モデル(LLM)はますます有能化しつつあるが、その思考と意思決定プロセスのメカニズムはいまだ不明である。本稿では,LCMの透明性を向上し,モニタが不適切かつ敏感な行動を特定するのに役立つ新しい方法TELLMEを提案する。
論文参考訳（メタデータ） (2025-02-07T13:25:33Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
Explanation-aware Soft Ensemble Empowers Large Language Model In-context Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文参考訳（メタデータ） (2023-11-13T06:13:38Z)
Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。