論文の概要: Are language models aware of the road not taken? Token-level uncertainty and hidden state dynamics
- arxiv url: http://arxiv.org/abs/2511.04527v1
- Date: Thu, 06 Nov 2025 16:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.507933
- Title: Are language models aware of the road not taken? Token-level uncertainty and hidden state dynamics
- Title(参考訳): 言語モデルは道に通らないことを認識しているか? : トークンレベルの不確実性と隠れ状態のダイナミクス
- Authors: Amir Zur, Atticus Geiger, Ekdeep Singh Lubana, Eric Bigelow,
- Abstract要約: 隠れたアクティベーションを使用して、思考の連鎖的推論中に言語モデルの不確実性を制御し、予測する。
異なるトークンにおけるモデルの不確かさと、そのアクティベーションを制御することによってモデルがいかに容易に操縦できるかとの間には、明確な相関関係がある。
また、隠れたアクティベーションはモデルの将来的な結果の分布を予測することができ、モデルが潜在的経路の空間を暗黙的に表すことを示す。
- 参考スコア(独自算出の注目度): 21.8640687271413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a language model generates text, the selection of individual tokens might lead it down very different reasoning paths, making uncertainty difficult to quantify. In this work, we consider whether reasoning language models represent the alternate paths that they could take during generation. To test this hypothesis, we use hidden activations to control and predict a language model's uncertainty during chain-of-thought reasoning. In our experiments, we find a clear correlation between how uncertain a model is at different tokens, and how easily the model can be steered by controlling its activations. This suggests that activation interventions are most effective when there are alternate paths available to the model -- in other words, when it has not yet committed to a particular final answer. We also find that hidden activations can predict a model's future outcome distribution, demonstrating that models implicitly represent the space of possible paths.
- Abstract(参考訳): 言語モデルがテキストを生成するとき、個々のトークンの選択は、それを非常に異なる推論経路へと導く可能性があるため、不確実性を定量化することは困難である。
本研究では,言語モデルの推論が,世代間における代替経路を表現できるかどうかを検討する。
この仮説をテストするために、我々は隠れたアクティベーションを使用して、思考の連鎖的推論中に言語モデルの不確実性を制御し、予測する。
実験では,異なるトークンにおけるモデルの不確かさと,そのアクティベーションを制御することによってモデルがどの程度容易に操縦できるかの相関関係が明らかとなった。
これは、アクティベーションの介入が、モデルに利用可能な代替パスがある場合、つまり、特定の最終回答にまだコミットしていない場合に最も効果的であることを示している。
また、隠れたアクティベーションはモデルの将来的な結果の分布を予測することができ、モデルが潜在的経路の空間を暗黙的に表すことを示す。
関連論文リスト
- Pretrained LLMs Learn Multiple Types of Uncertainty [23.807232455808613]
大規模言語モデルは現実世界の知識を捉えることで知られており、下流の多くのタスクに精通することができる。
本研究では,LLMが不確実性をどのように捉えているのかを,それに対して明示的に訓練されることなく検討する。
モデルの潜在空間における線形概念としての不確実性を考えると、事前訓練後にのみ捕捉されることが示される。
論文 参考訳(メタデータ) (2025-05-27T14:06:15Z) - A Psycholinguistic Evaluation of Language Models' Sensitivity to Argument Roles [0.06554326244334868]
我々は,人間の議論的役割処理に関する心理言語学的研究を再現することにより,大規模言語モデルの議論的役割に対する感受性を評価する。
言語モデルでは,動詞とその先行する引数の関係から,可否が決定されるような,可否的かつ不可解な文脈で現れる動詞を識別することができる。
このことは、言語モデルが動詞の可読性を検出する能力は、人間のリアルタイム文処理の基盤となるメカニズムから生じるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-10-21T16:05:58Z) - Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models [113.58052868898173]
我々は、モデルが予期しない方法でプロンプトから生成元に無関係な情報を漏らす現象を識別し、特徴付けする。
本研究では,人間と自動の両方でセマンティックリークを検出するための評価設定を提案し,その振る舞いを診断するための多様なテストスイートをキュレートし,13のフラッグシップモデルにおいて重要なセマンティックリークを測定する。
論文 参考訳(メタデータ) (2024-08-12T22:30:55Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。