論文の概要: Me, Myself, and $π$ : Evaluating and Explaining LLM Introspection
- arxiv url: http://arxiv.org/abs/2603.20276v1
- Date: Tue, 17 Mar 2026 17:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.792284
- Title: Me, Myself, and $π$ : Evaluating and Explaining LLM Introspection
- Title(参考訳): 私と私と$π$ : LLMイントロスペクションの評価と説明
- Authors: Atharv Naphade, Samarth Bhargav, Sean Lim, Mcnair Shah,
- Abstract要約: イントロスペクション(Introspection)とは、自分自身の認知過程を評価し、判断する能力である。
Introspect-Benchは厳格な能力テスト用に設計された評価スイートである。
- 参考スコア(独自算出の注目度): 1.0610440409455506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A hallmark of human intelligence is Introspection-the ability to assess and reason about one's own cognitive processes. Introspection has emerged as a promising but contested capability in large language models (LLMs). However, current evaluations often fail to distinguish genuine meta-cognition from the mere application of general world knowledge or text-based self-simulation. In this work, we propose a principled taxonomy that formalizes introspection as the latent computation of specific operators over a model's policy and parameters. To isolate the components of generalized introspection, we present Introspect-Bench, a multifaceted evaluation suite designed for rigorous capability testing. Our results show that frontier models exhibit privileged access to their own policies, outperforming peer models in predicting their own behavior. Furthermore, we provide causal, mechanistic evidence explaining both how LLMs learn to introspect without explicit training, and how the mechanism of introspection emerges via attention diffusion.
- Abstract(参考訳): 人間の知能の目印はイントロスペクション(Introspection)であり、自分自身の認知過程を評価し、判断する能力である。
イントロスペクションは、大きな言語モデル(LLM)において有望だが競合する能力として登場した。
しかし、現在の評価では、一般的な世界知識やテキストベースの自己シミュレーションの応用と本当のメタ認知を区別することができないことが多い。
本研究では,モデルのポリシとパラメータに対する特定の演算子の潜在計算としてイントロスペクションを形式化する,原則的分類法を提案する。
一般化されたイントロスペクションの構成要素を分離するために,厳密な機能テスト用に設計された多面的評価スイートであるIntrospect-Benchを提案する。
以上の結果から,フロンティアモデルでは,自らの行動を予測する上で,ピアモデルよりも優れた,独自のポリシへの特権的アクセスが示されることがわかった。
さらに,LLMが明示的なトレーニングを伴わずにイントロスペクションを学ぶ方法と,イントロスペクションのメカニズムがアテンション拡散を介してどのように現れるかを説明する因果的,機械的証拠を提供する。
関連論文リスト
- Evidence for Limited Metacognition in LLMs [2.538209532048867]
LLMにおけるメタ認知能力を定量的に評価するための新しい手法を提案する。
非ヒト動物におけるメタ認知の研究からインスピレーションを得て、我々のアプローチは、モデルによる自己申告を行い、その代わりに、モデルが内部状態の知識を戦略的に展開できる程度にテストする。
論文 参考訳(メタデータ) (2025-09-25T20:30:15Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Learning by Self-Explaining [23.420673675343266]
我々は、自己説明による学習(LSX)と呼ばれる画像分類の文脈において、新しいワークフローを導入する。
LSXは、自己修復型AIと人間誘導型説明機械学習の側面を利用する。
本結果は,自己説明による学習による改善を,いくつかのレベルで示すものである。
論文 参考訳(メタデータ) (2023-09-15T13:41:57Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。