論文の概要: Probing for Arithmetic Errors in Language Models
- arxiv url: http://arxiv.org/abs/2507.12379v1
- Date: Wed, 16 Jul 2025 16:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.468322
- Title: Probing for Arithmetic Errors in Language Models
- Title(参考訳): 言語モデルにおける算数誤差の探索
- Authors: Yucheng Sun, Alessandro Stolfo, Mrinmaya Sachan,
- Abstract要約: 言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
- 参考スコア(独自算出の注目度): 86.8227317662622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether internal activations in language models can be used to detect arithmetic errors. Starting with a controlled setting of 3-digit addition, we show that simple probes can accurately decode both the model's predicted output and the correct answer from hidden states, regardless of whether the model's output is correct. Building on this, we train lightweight error detectors that predict model correctness with over 90% accuracy. We then extend our analysis to structured chain-of-thought traces on addition-only GSM8K problems and find that probes trained on simple arithmetic generalize well to this more complex setting, revealing consistent internal representations. Finally, we demonstrate that these probes can guide selective re-prompting of erroneous reasoning steps, improving task accuracy with minimal disruption to correct outputs. Our findings suggest that arithmetic errors can be anticipated from internal activations alone, and that simple probes offer a viable path toward lightweight model self-correction.
- Abstract(参考訳): 本稿では,言語モデルの内部アクティベーションが算術誤差の検出に有効かどうかを検討する。
3桁加算の制御設定から、モデルが正しいかどうかに関わらず、単純なプローブがモデルが予測した出力と隠れ状態からの正解の両方を正確に復号できることを示す。
これに基づいて、90%以上の精度でモデルの正確性を予測する軽量エラー検出器を訓練する。
次に、加法のみのGSM8K問題に基づく構造的連鎖トレースに解析を拡張し、単純算術で訓練されたプローブがより複雑な設定によく一般化し、一貫した内部表現を明らかにする。
最後に、これらのプローブは、誤り推論ステップの選択的再プロンプトを導出し、出力を補正するために最小限の破壊でタスク精度を向上させることを実証する。
この結果から,演算誤差は内部のアクティベーションだけで予測可能であることが示唆された。
関連論文リスト
- Pre-trained Language Models Learn Remarkably Accurate Representations of Numbers [1.8874331450711404]
既存の研究は、モデルの表現から数値の値を求めることには成功しなかった。
本稿では,入力埋め込みから数値をほぼ完全精度で復号する新しい探索手法を提案する。
プローブの精度によって判断された埋め込みの精度は、基本算術におけるLMの誤差の大部分を説明できることがわかった。
論文 参考訳(メタデータ) (2025-06-10T16:37:35Z) - The Validation Gap: A Mechanistic Analysis of How Language Models Compute Arithmetic but Fail to Validate It [23.803612556616685]
大規模言語モデル(LLM)における誤り検出の力学解析について述べる。
回路解析により,4つの小さいLLMの演算誤差を検出する計算部分グラフを同定する。
この結果から,算術的解法における数値値の表面レベルのアライメントを評価するために,すべてのモデルが$textitConsistency Head$-attention Headに大きく依存していることが判明した。
論文 参考訳(メタデータ) (2025-02-17T13:00:44Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems [47.753284211200665]
我々は、事前訓練段階に直接「エラー訂正」データを組み込むことの有用性を理解することに注力する。
このデータは、即座に修正された誤った解ステップで構成されている。
このタイプの事前学習データにより、言語モデルの推論精度の向上が期待できる。
論文 参考訳(メタデータ) (2024-08-29T06:49:20Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。