論文の概要: When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment
- arxiv url: http://arxiv.org/abs/2605.06723v1
- Date: Thu, 07 May 2026 08:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.488144
- Title: When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment
- Title(参考訳): 言語モデルはいつコミットされるか? : 動詞化前コミットの有限回答理論
- Authors: Long Zhang, Wei-neng Chen, Feng-feng Wei, Zi-bo Qin,
- Abstract要約: 言語モデルは最終回答を与える前に推論を生成することが多いが、可視性のある答えは、モデルの回答がいつ安定するかを明らかにしない。
我々はこの問題を、狭義の計算可能な対象である無限回答優先安定化(enmphfinite-aswer preference stabilization)を通して研究する。
モデル状態と特定解動詞化子に対しては、モデル自身の継続確率を有限解集合に投影する。
バイナリタスクでは、これは正確なlog-oddsコード、$()=S_(mathrmyesmid)-S_(mathrmnomid)が生成される。
- 参考スコア(独自算出の注目度): 6.48455847613423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models often generate reasoning before giving a final answer, but the visible answer does not reveal when the model's answer preference became stable. We study this question through a narrow computable object: \emph{finite-answer preference stabilization}. For a model state and specified answer verbalizers, we project the model's own continuation probabilities onto a finite answer set; in binary tasks this yields an exact log-odds code, $δ(ξ)=S_θ(\mathrm{yes}\midξ)-S_θ(\mathrm{no}\midξ)$. This target defines parser-based answer onset, retrospective stabilization time, and lead without relying on greedy rollouts or learned probes. In controlled delayed-verdict tasks with Qwen3-4B-Instruct, the contextual finite-answer projection stabilizes before the answer is parseable, with 17--31 token mean lead in the main templates and positive, shorter lead in a parser-clean replication. The signal tracks the model's eventual output rather than truth, is linearly recoverable from compact hidden summaries, is partly separable from cursor progress, and transfers as shared information without a single invariant coordinate. Diagnostics separate the measurement from online stopping, verbalizer-free belief, and causal answer control; exact steering shows local sensitivity of $δ$ but not reliable generation control.
- Abstract(参考訳): 言語モデルは最終回答を与える前に推論を生成することが多いが、可視性のある答えは、モデルの回答がいつ安定するかを明らかにしない。
この問題を、狭義の計算可能な対象である \emph{finite-answer preference stabilization} を通して研究する。
モデル状態と特定の解の動詞化子に対しては、モデル自身の継続確率を有限の解集合に射影する; バイナリタスクでは、これは正確な対数コード、$δ( )=S_θ(\mathrm{yes}\mid )-S_θ(\mathrm{no}\mid )$ を生成する。
このターゲットは、グリージーなロールアウトや学習されたプローブに頼ることなく、パーサベースの回答のオンセット、ふりかえりの安定化時間、リードを定義する。
Qwen3-4B-Instructで制御された遅延予測タスクでは、文脈的有限回答プロジェクションは、応答が解析可能である前に安定化され、17--31トークン平均リードはメインテンプレート、そしてパーザクリーン複製では、より短いリードとなる。
信号は真理ではなくモデルの最終的な出力を追跡し、コンパクトな隠れサマリーから線形に回復可能であり、カーソルの進行から部分的に分離可能であり、単一の不変座標なしで共有情報として転送される。
正確なステアリングは、$δ$の局所的な感度を示すが、信頼できない生成制御を示す。
関連論文リスト
- Paraphrase-Induced Output-Mode Collapse: When LLMs Break Character Under Semantically Equivalent Inputs [0.9525172018746524]
我々は、プロンプト変数の出力モード崩壊と呼ばれる、系統的な障害モードを観察する。
クローズドフォームプロンプトがベアラベルや単一の選択トークンを要求すると、コンテンツ保存プロンプトの変種がモデルを会話の散文にプッシュする。
PARACONSISTは5つの語彙、構文、意味拡張プロンプトを持つ150のベースクエリのベンチマークである。
論文 参考訳(メタデータ) (2026-05-06T09:11:10Z) - Large Language Models Decide Early and Explain Later [47.20810161393936]
本研究では, 強制解の完成度を用いた推理段階における予測解の進化について検討する。
プローブベースの停止を含むシンプルさは、クエリ毎の推論トークン使用量を500トークン削減できることを示す。
論文 参考訳(メタデータ) (2026-04-24T06:26:24Z) - Pando: Do Interpretability Methods Work When Models Won't Explain Themselves? [53.07826484214082]
モデル・オーガニゼーションのベンチマークであるPandoを紹介します。
Pandoは、ラベル付きクエリ-レスポンスペアから、ホールドアウトモデル決定を予測する。
説明が忠実であれば、ブラックボックスの引用はすべてのホワイトボックスメソッドに一致するか、超える。
論文 参考訳(メタデータ) (2026-04-13T06:42:24Z) - Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models [78.68818219506313]
本稿では,複数解に対する分布推論を行うための多解補足学習手法について述べる。
質問応答, 診断, コーディングベンチマークを通じて, 単一回答学習ベースラインと比較して, 多様性, カバレッジ, 設定レベルの校正スコアが向上した。
論文 参考訳(メタデータ) (2026-03-25T22:20:25Z) - Mechanistic Evidence for Faithfulness Decay in Chain-of-Thought Reasoning [0.0]
Chain-of-Thoughtの説明は、言語モデルが複雑な問題を解決する方法を理解するために広く使われている。
モデルの意思決定プロセスに個別の推論ステップが忠実かどうかを測定する指標である正規化論理差判定(NLDD)を提案する。
論文 参考訳(メタデータ) (2026-02-04T21:55:57Z) - Probing the Trajectories of Reasoning Traces in Large Language Models [4.599673637363014]
本研究では,大規模言語モデルにおける推論トレースの軌跡を探索するプロトコルを提案する。
得られた推論トークンの比率が大きくなるにつれて、精度と決定のコミットメントが一貫して増加することが分かっています。
軌道探索が推論モデルのより効率的かつ安全な展開のための診断を提供することを示す。
論文 参考訳(メタデータ) (2026-01-30T16:45:16Z) - Temporal Predictors of Outcome in Reasoning Language Models [0.0]
CoT(Chain-of-Thought)パラダイムは、推論のプロキシとしてステップバイステップの合理性の推論を使用する。
難しい問題に対して、予測精度の低下は、選択アーティファクトを浮き彫りにする。
全体として、我々の結果は、推論モデルでは、成功の自己評価はわずか数トークンで現れる傾向にあることを示唆している。
論文 参考訳(メタデータ) (2025-11-03T08:57:18Z) - Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production [55.76222360698305]
我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
論文 参考訳(メタデータ) (2025-10-13T21:07:05Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。