論文の概要: Bridging the Knowledge-Prediction Gap in LLMs on Multiple-Choice Questions
- arxiv url: http://arxiv.org/abs/2509.23782v1
- Date: Sun, 28 Sep 2025 09:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.445827
- Title: Bridging the Knowledge-Prediction Gap in LLMs on Multiple-Choice Questions
- Title(参考訳): 複数質問に対するLLMの知識予測ギャップのブリッジ化
- Authors: Yoonah Park, Haesung Pyun, Yohan Jo,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば多重選択質問(MCQ)で失敗する。
このサブスペース内の知識座標と予測座標を整合させるために隠れ状態を変化させるパラメータフリーな介入であるtextbfKAPPA (Knowledge-Aligned Prediction through Projection-based Adjustment) を導入する。
Big-Bench-Hard と ARC-Challenge のバイナリ選択再構成実験により、KAPPA は精度を大幅に向上し、ベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 15.161552431883768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often fail on multiple-choice questions (MCQs) despite demonstrating correct knowledge in other contexts, such as free-form generation. To investigate the mechanism underlying this knowledge-prediction gap on MCQs and alleviate it, we conduct a probing analysis and find that residual streams in certain layers contain a subspace spanned by two important bases: a \emph{knowledge basis} that encodes the probability of the ground-truth answer for a given MCQ and a \emph{prediction basis} that encodes the probability of the answer choice predicted by the model. We observe that incorrect predictions arise from a misalignment of the model's hidden states along these two bases. Hence, we introduce \textbf{KAPPA} (Knowledge-Aligned Prediction through Projection-based Adjustment), a parameter-free intervention that transforms the hidden states to align the prediction coordinate with the knowledge coordinate within this subspace. Experiments on binary-choice reformulations of Big-Bench-Hard and ARC-Challenge show that KAPPA substantially improves accuracy and consistently outperforms baselines. While optimal subspaces differ across tasks, subspaces generalize to some extent, as supported by cross-dataset experiments. Moreover, KAPPA extends its effectiveness to free-form questions beyond MCQs. Our work provides a new geometric understanding of the knowledge-prediction gap and offers a practical method for better aligning model behavior with its latent knowledge.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自由形式生成など他の文脈で正しい知識を示すにもかかわらず、複数の選択質問(MCQ)で失敗することが多い。
このMCQの知識-予測ギャップのメカニズムを解明し、それを緩和するために、探索解析を行い、モデルによって予測される解選択の確率を符号化する、与えられたMCQに対する基底-真実解の確率を符号化する \emph{knowledge basis} と、モデルによって予測される解選択の確率を符号化する \emph{prediction basis} という2つの重要な基底によって分散された部分空間を含むことを発見した。
この2つのベースに沿って隠れた状態の誤調整から、誤った予測が生じるのを観察する。
そこで,この部分空間内の知識座標と予測座標を整合させるために隠れ状態を変化させるパラメータフリーな介入である「textbf{KAPPA} (Knowledge-Aligned Prediction through Projection-based Adjustment)」を導入する。
Big-Bench-Hard と ARC-Challenge のバイナリ選択再構成実験により、KAPPA は精度を大幅に向上し、ベースラインを一貫して上回ることを示した。
最適部分空間はタスクによって異なるが、部分空間はクロスデータセット実験によって支持されるようにある程度一般化される。
さらに、KAPPAはその効果をMCQ以外のフリーフォームの質問にまで拡張する。
我々の研究は、知識-予測ギャップの新しい幾何学的理解を提供し、その潜在知識とモデル行動の整合性を改善するための実践的な方法を提供する。
関連論文リスト
- Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models [20.810300785340072]
Conformal Prediction with Query Oracle (CPQ)は、これらの目的間の最適な相互作用を特徴付けるフレームワークである。
本アルゴリズムは2つの基本原理に基づいて構築されている。一方は最適なクエリポリシーを規定し、他方はクエリされたサンプルから予測セットへの最適マッピングを定義する。
論文 参考訳(メタデータ) (2025-06-05T18:26:14Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation [0.0]
本稿では,不確実性モデリングにおける基礎概念の統合とコンテキスト化について述べる。
空間集合における強い仮定や標準ベンチマークの欠如といった課題を特定する。
深層学習における不確実性認識のセグメンテーションを進めるための方向性を提案する。
論文 参考訳(メタデータ) (2024-11-25T13:26:09Z) - Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Leveraging viscous Hamilton-Jacobi PDEs for uncertainty quantification in scientific machine learning [1.8175282137722093]
科学機械学習(SciML)における不確実性(UQ)は、SciMLの強力な予測力と、学習したモデルの信頼性を定量化する方法を組み合わせる。
我々は、SciMLと粘性ハミルトン-ヤコビ偏微分方程式(HJ PDE)で生じるいくつかのベイズ推論問題の間の新しい理論的関係を確立することにより、UQ問題に対する新しい解釈を提供する。
我々はモデル予測を継続的に更新する際の計算上の利点を提供する新しいRacatiベースの方法論を開発した。
論文 参考訳(メタデータ) (2024-04-12T20:54:01Z) - Predictive Inference in Multi-environment Scenarios [18.324321417099394]
有効な信頼区間を構築するという課題に対処し、複数の環境にまたがる予測の問題に対処する。
我々は、非伝統的で階層的なデータ生成シナリオにおいて、分散のないカバレッジを得る方法を示すために、Jackknifeとsplit-conformalメソッドを拡張します。
コントリビューションには、非実測値応答の設定の拡張、これらの一般的な問題における予測推論の一貫性の理論、条件付きカバレッジの限界に関する洞察が含まれる。
論文 参考訳(メタデータ) (2024-03-25T00:21:34Z) - Extending Complex Logical Queries on Uncertain Knowledge Graphs [50.360531130930646]
機械学習に基づく論理クエリ応答の研究は、大規模かつ不完全な知識グラフによる推論を可能にする。
我々は,大規模,不完全,不確実な知識グラフ上でのソフトクエリに応答するために,前方推論と後方校正の両方を組み込んだニューラルシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-03T13:13:53Z) - Learning Deterministic Surrogates for Robust Convex QCQPs [0.0]
本稿では,ロバストな意思決定損失に関する予測モデルをトレーニングするための二重暗黙層モデルを提案する。
第1の層は問題の決定論的バージョンを解き、第2の層は不確実性集合に対する最悪のケース実現を評価する。
これにより、テスト時に単純な決定論的問題を解くだけで、堅牢な決定につながるモデルのパラメータ化を学ぶことができます。
論文 参考訳(メタデータ) (2023-12-19T16:56:13Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。