論文の概要: A model of errors in transformers
- arxiv url: http://arxiv.org/abs/2601.14175v1
- Date: Tue, 20 Jan 2026 17:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.431216
- Title: A model of errors in transformers
- Title(参考訳): 変圧器の誤差モデル
- Authors: Suvrat Raju, Praneeth Netrapalli,
- Abstract要約: 決定論的出力を必要とするタスクにおけるLLMの誤り率と,少人数の代替案から引き出されたトークンの繰り返し処理について検討する。
注意機構の小さな誤差がしきい値を超えたときに、誤った予測が生じることを論じる。
エラー率を減らすためにプロンプトを構築する方法を示す。
- 参考スコア(独自算出の注目度): 14.482123927397135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the error rate of LLMs on tasks like arithmetic that require a deterministic output, and repetitive processing of tokens drawn from a small set of alternatives. We argue that incorrect predictions arise when small errors in the attention mechanism accumulate to cross a threshold, and use this insight to derive a quantitative two-parameter relationship between the accuracy and the complexity of the task. The two parameters vary with the prompt and the model; they can be interpreted in terms of an elementary noise rate, and the number of plausible erroneous tokens that can be predicted. Our analysis is inspired by an ``effective field theory'' perspective: the LLM's many raw parameters can be reorganized into just two parameters that govern the error rate. We perform extensive empirical tests, using Gemini 2.5 Flash, Gemini 2.5 Pro and DeepSeek R1, and find excellent agreement between the predicted and observed accuracy for a variety of tasks, although we also identify deviations in some cases. Our model provides an alternative to suggestions that errors made by LLMs on long repetitive tasks indicate the ``collapse of reasoning'', or an inability to express ``compositional'' functions. Finally, we show how to construct prompts to reduce the error rate.
- Abstract(参考訳): 決定論的出力を必要とする算術演算や,少人数の代替案から引き出されたトークンの繰り返し処理といったタスクにおいて,LLMの誤り率について検討する。
注意機構の小さな誤差がしきい値を超えたときに、誤った予測が生じ、この洞察を用いて、タスクの精度と複雑さの間の定量的な2パラメータの関係を導出する。
2つのパラメータはプロンプトとモデルによって異なり、基本的なノイズ率と予測可能な誤りトークンの数で解釈できる。
LLMの多くの生パラメータは、エラー率を管理する2つのパラメータに再編成することができる。
我々は、Gemini 2.5 Flash、Gemini 2.5 Pro、DeepSeek R1を使用して広範な実証実験を行い、様々なタスクにおいて予測された精度と観測された精度の間に優れた一致を見出した。
我々のモデルは、長い反復的なタスクにおいてLLMが犯した誤りが ` `collapse of reasoning'' を示す、あるいは ``compositional'' 関数を表現できないという提案に代わるものである。
最後に、エラー率を減らすためにプロンプトを構築する方法を示す。
関連論文リスト
- Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Evaluating Robustness to Dataset Shift via Parametric Robustness Sets [7.347989843033034]
モデル性能に大きな違いをもたらす分布の変化を積極的に同定する手法を提案する。
画像から性別を分類する手法を適用し,非因果属性の変化に対する感受性を明らかにする。
論文 参考訳(メタデータ) (2022-05-31T16:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。