論文の概要: When Models Decide and When They Bind: A Two-Stage Computation for Multiple-Choice Question-Answering
- arxiv url: http://arxiv.org/abs/2601.03914v1
- Date: Wed, 07 Jan 2026 13:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.566242
- Title: When Models Decide and When They Bind: A Two-Stage Computation for Multiple-Choice Question-Answering
- Title(参考訳): モデルが決定する時と結合する時 - 複数質問応答のための2段階計算-
- Authors: Hugh Mee Wong, Rick Nouwen, Albert Gatt,
- Abstract要約: マルチチョイス質問応答(MCQA)は評価が容易だが、メタタスクを追加する。
本稿では,表現分析(PCA,線形プローブ)と因果介入を用いて,言語モデルがMCQAを内部的に実装する方法について検討する。
- 参考スコア(独自算出の注目度): 7.622274098558385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-choice question answering (MCQA) is easy to evaluate but adds a meta-task: models must both solve the problem and output the symbol that *represents* the answer, conflating reasoning errors with symbol-binding failures. We study how language models implement MCQA internally using representational analyses (PCA, linear probes) as well as causal interventions. We find that option-boundary (newline) residual states often contain strong linearly decodable signals related to per-option correctness. Winner-identity probing reveals a two-stage progression: the winning *content position* becomes decodable immediately after the final option is processed, while the *output symbol* is represented closer to the answer emission position. Tests under symbol and content permutations support a two-stage mechanism in which models first select a winner in content space and then bind or route that winner to the appropriate symbol to emit.
- Abstract(参考訳): モデルは、その問題を解決すると同時に、*その答えを*表現するシンボルを出力し、シンボルバインディングの失敗と推論エラーを混同しなければならない。
本稿では,表現分析(PCA,線形プローブ)と因果介入を用いて,言語モデルがMCQAを内部的に実装する方法について検討する。
オプション境界(ニューライン)残留状態は、オプションごとの正当性に関連する強い線形デオード可能な信号を含むことが多い。
勝利*コンテンツ位置*は最終オプションが処理された直後に退避可能となり、*出力シンボル*は解答出力位置に近く表現される。
シンボルとコンテンツ置換の下のテストは、2段階のメカニズムをサポートし、モデルがまずコンテンツ空間の勝者を選択し、その勝者を適切なシンボルにバインドまたはルートする。
関連論文リスト
- Reasoning Models are Test Exploiters: Rethinking Multiple-Choice [12.317748510370238]
大きな言語モデル(LLM)は、固定された選択セットの中から選ぶように求められます。
McQCA(Multiple-choice Question-Awering)は、モデル下流のパフォーマンスのよいプロキシである。
本稿では,最先端の推論モデルにおいて,この傾向が持続する範囲について検討する。
論文 参考訳(メタデータ) (2025-07-21T07:49:32Z) - Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。
後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - "My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models [40.867655189493924]
言語生成のオープンな性質は、大規模言語モデル(LLM)の評価を困難にしている。
1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。
そこで本研究では,テキストの出力を数次元で評価する。
論文 参考訳(メタデータ) (2024-02-22T12:47:33Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Generating Correct Answers for Progressive Matrices Intelligence Tests [88.78821060331582]
Ravenのプログレッシブマトリクス(Progressive Matrices)は、複数選択のインテリジェンステストである。
このテストに対処する以前の試みは、複数の選択肢の中から正しい回答を選択することに集中していました。
この作業では、代わりに、定義によって難しいタスクである選択を見ることなく、グリッドに与えられた正しい回答を生成することに焦点を合わせます。
論文 参考訳(メタデータ) (2020-11-01T13:21:07Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。