論文の概要: A model of errors in transformers
- arxiv url: http://arxiv.org/abs/2601.14175v1
- Date: Tue, 20 Jan 2026 17:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.431216
- Title: A model of errors in transformers
- Title(参考訳): 変圧器の誤差モデル
- Authors: Suvrat Raju, Praneeth Netrapalli,
- Abstract要約: 決定論的出力を必要とするタスクにおけるLLMの誤り率と,少人数の代替案から引き出されたトークンの繰り返し処理について検討する。
注意機構の小さな誤差がしきい値を超えたときに、誤った予測が生じることを論じる。
エラー率を減らすためにプロンプトを構築する方法を示す。
- 参考スコア(独自算出の注目度): 14.482123927397135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the error rate of LLMs on tasks like arithmetic that require a deterministic output, and repetitive processing of tokens drawn from a small set of alternatives. We argue that incorrect predictions arise when small errors in the attention mechanism accumulate to cross a threshold, and use this insight to derive a quantitative two-parameter relationship between the accuracy and the complexity of the task. The two parameters vary with the prompt and the model; they can be interpreted in terms of an elementary noise rate, and the number of plausible erroneous tokens that can be predicted. Our analysis is inspired by an ``effective field theory'' perspective: the LLM's many raw parameters can be reorganized into just two parameters that govern the error rate. We perform extensive empirical tests, using Gemini 2.5 Flash, Gemini 2.5 Pro and DeepSeek R1, and find excellent agreement between the predicted and observed accuracy for a variety of tasks, although we also identify deviations in some cases. Our model provides an alternative to suggestions that errors made by LLMs on long repetitive tasks indicate the ``collapse of reasoning'', or an inability to express ``compositional'' functions. Finally, we show how to construct prompts to reduce the error rate.
- Abstract(参考訳): 決定論的出力を必要とする算術演算や,少人数の代替案から引き出されたトークンの繰り返し処理といったタスクにおいて,LLMの誤り率について検討する。
注意機構の小さな誤差がしきい値を超えたときに、誤った予測が生じ、この洞察を用いて、タスクの精度と複雑さの間の定量的な2パラメータの関係を導出する。
2つのパラメータはプロンプトとモデルによって異なり、基本的なノイズ率と予測可能な誤りトークンの数で解釈できる。
LLMの多くの生パラメータは、エラー率を管理する2つのパラメータに再編成することができる。
我々は、Gemini 2.5 Flash、Gemini 2.5 Pro、DeepSeek R1を使用して広範な実証実験を行い、様々なタスクにおいて予測された精度と観測された精度の間に優れた一致を見出した。
我々のモデルは、長い反復的なタスクにおいてLLMが犯した誤りが ` `collapse of reasoning'' を示す、あるいは ``compositional'' 関数を表現できないという提案に代わるものである。
最後に、エラー率を減らすためにプロンプトを構築する方法を示す。
関連論文リスト
- Emergence of Minimal Circuits for Indirect Object Identification in Attention-Only Transformers [0.10152838128195467]
我々は、間接オブジェクト識別タスクのシンボリックバージョンにおいて、スクラッチから小さな注意のみのトランスフォーマーを訓練する。
2つのアテンションヘッドしか持たない単一層モデルは、残差と正規化層が欠如しているにもかかわらず、完全なIOI精度を達成する。
2層1頭モデルでは,問合せと問合せの相互作用を通じて,複数の層にまたがる情報を構成することで,同様の性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T22:25:19Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Evaluating Robustness to Dataset Shift via Parametric Robustness Sets [7.347989843033034]
モデル性能に大きな違いをもたらす分布の変化を積極的に同定する手法を提案する。
画像から性別を分類する手法を適用し,非因果属性の変化に対する感受性を明らかにする。
論文 参考訳(メタデータ) (2022-05-31T16:44:18Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。