論文の概要: Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness
- arxiv url: http://arxiv.org/abs/2604.12373v2
- Date: Wed, 15 Apr 2026 05:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.5272
- Title: Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness
- Title(参考訳): コンセンサスに触発された:LLMの正確性における厳密な知識の両立
- Authors: Tomer Ashuach, Liat Ein-Dor, Shai Gretz, Yoav Katz, Yonatan Belinkov,
- Abstract要約: 大規模言語モデルが解答正解に関する類似の特権知識を持っているかどうかを検討する。
自己表現がパフォーマンス上の優位性をもたらすかどうかをテストする。
自己表現は、現実的な知識タスクにおいて、常にピア表現よりも優れていますが、数学の推論において何の利点も示していません。
- 参考スコア(独自算出の注目度): 34.33693700801468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans use introspection to evaluate their understanding through private internal states inaccessible to external observers. We investigate whether large language models possess similar privileged knowledge about answer correctness, information unavailable through external observation. We train correctness classifiers on question representations from both a model's own hidden states and external models, testing whether self-representations provide a performance advantage. On standard evaluation, we find no advantage: self-probes perform comparably to peer-model probes. We hypothesize this is due to high inter-model agreement of answer correctness. To isolate genuine privileged knowledge, we evaluate on disagreement subsets, where models produce conflicting predictions. Here, we discover domain-specific privileged knowledge: self-representations consistently outperform peer representations in factual knowledge tasks, but show no advantage in math reasoning. We further localize this domain asymmetry across model layers, finding that the factual advantage emerges progressively from early-to-mid layers onward, consistent with model-specific memory retrieval, while math reasoning shows no consistent advantage at any depth.
- Abstract(参考訳): 人間はイントロスペクションを使用して、外部のオブザーバーに近づかないプライベートな内部状態を通して理解を評価する。
本研究では,大言語モデルが解答正解に関する類似の特権知識を持っているか,外部観測で利用できない情報について検討する。
我々は、モデル自身の隠蔽状態と外部モデルの両方から質問表現の正当性分類器を訓練し、自己表現がパフォーマンス上の優位性をもたらすかどうかをテストする。
標準的な評価では、自己プローブはピアモデルプローブと同等に機能する。
これは、解答の正当性に関するモデル間合意が高いためである、という仮説を立てる。
真の特権知識を分離するために、モデルが矛盾する予測を生成する不一致部分集合を評価する。
ここでは、ドメイン固有の特権知識を発見する: 自己表現は、現実的な知識タスクにおいて、常にピア表現よりも優れているが、数学の推論において、優位性は示さない。
さらに、この領域非対称性をモデル層全体に局所化し、実際の優位性は、モデル固有のメモリ検索と整合性を持ちながら、初期から中期にかけて徐々に現れることを発見した。
関連論文リスト
- A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior [11.616524876789624]
LLMの自己説明は、しばしばAI監視のための有望なツールとして提示されるが、モデルの真の推論プロセスへの忠実さは理解されていない。
モデル決定基準の学習を忠実な説明で行うべきだという考え方に基づく指標である正規化シミュラタゲインビリティ(NSG)を紹介する。
自己説明はモデル行動の予測を大幅に改善する(11-37% NSG)。
論文 参考訳(メタデータ) (2026-02-02T18:54:51Z) - LLM Microscope: What Model Internals Reveal About Answer Correctness and Context Utilization [9.410181019585822]
我々は、モデル出力の正しさを予測できるかどうかを確認するために、解釈可能性法を運用する。
私たちは正しい、間違った、無関係なコンテキストを考え、それらを区別するためのメトリクスを導入します。
モデル内部のメトリクスは、正しいコンテキストと不正確なコンテキストを区別する基準線を著しく上回る。
論文 参考訳(メタデータ) (2025-10-05T03:14:05Z) - Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification [23.190823296729732]
本研究は,仮説モデルが解答正解性に関する情報を隠蔽状態の探索によって符号化するかどうかを考察する。
得られたプローブは、中間回答を高い精度で検証し、高度に校正されたスコアを生成する。
論文 参考訳(メタデータ) (2025-04-07T18:42:01Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Language Models Fail to Introspect About Their Knowledge of Language [12.074939242230505]
大規模言語モデル (LLM) が内部状態を検査できるかどうかを検討する。
モデルがメタ言語的刺激に対する応答を、内部知識を忠実に反映しているかどうかを評価する。
メタ言語的プロンプトと確率比較は高いタスク精度をもたらすが、LLMが「自己アクセス」を特権化している証拠は見つからない。
論文 参考訳(メタデータ) (2025-03-10T16:33:14Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。