論文の概要: How Focused Are LLMs? A Quantitative Study via Repetitive Deterministic Prediction Tasks
- arxiv url: http://arxiv.org/abs/2511.00763v1
- Date: Sun, 02 Nov 2025 01:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.924127
- Title: How Focused Are LLMs? A Quantitative Study via Repetitive Deterministic Prediction Tasks
- Title(参考訳): LLMはどの程度焦点が当てられているか?繰り返し決定論的予測タスクによる定量的研究
- Authors: Wanda Hou, Leon Zhou, Hong-Ye Hu, Yi-Zhuang You, Xiao-Liang Qi,
- Abstract要約: 繰り返し決定論的予測タスクにおける大規模言語モデルの性能について検討する。
実験により, 特徴的な長さスケールを超える急激な2重指数降下が明らかとなった。
これは、モデルがそれぞれの操作を独立して実行できないことを示している。
- 参考スコア(独自算出の注目度): 0.9338697277815541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the performance of large language models on repetitive deterministic prediction tasks and study how the sequence accuracy rate scales with output length. Each such task involves repeating the same operation n times. Examples include letter replacement in strings following a given rule, integer addition, and multiplication of string operators in many body quantum mechanics. If the model performs the task through a simple repetition algorithm, the success rate should decay exponentially with sequence length. In contrast, our experiments on leading large language models reveal a sharp double exponential drop beyond a characteristic length scale, forming an accuracy cliff that marks the transition from reliable to unstable generation. This indicates that the models fail to execute each operation independently. To explain this phenomenon, we propose a statistical physics inspired model that captures the competition between external conditioning from the prompt and internal interference among generated tokens. The model quantitatively reproduces the observed crossover and provides an interpretable link between attention induced interference and sequence level failure. Fitting the model to empirical results across multiple models and tasks yields effective parameters that characterize the intrinsic error rate and error accumulation factor for each model task pair, offering a principled framework for understanding the limits of deterministic accuracy in large language models.
- Abstract(参考訳): 本研究では,繰り返し決定論的予測タスクにおける大規模言語モデルの性能について検討し,シーケンスの精度が出力長とともにどのようにスケールするかを検討する。
それぞれのタスクは、同じ操作をn回繰り返します。
例えば、与えられた規則に従う文字列の文字置換、整数加算、多くの体量子力学における文字列演算子の乗算などである。
モデルが単純な繰り返しアルゴリズムでタスクを実行する場合、成功率は指数関数的にシーケンス長で減衰する。
対照的に、我々の大規模言語モデルにおける実験では、特徴的長さスケールを超える急激な2倍指数差が示され、信頼性から不安定な生成への遷移を示す精度の崖が形成される。
これは、モデルがそれぞれの操作を独立して実行できないことを示している。
この現象を説明するために、生成トークン間のプロンプトと内部干渉から外部条件の競合を捉える統計物理学モデルを提案する。
このモデルは観測されたクロスオーバーを定量的に再現し、注意誘導干渉とシーケンスレベルの故障の間の解釈可能なリンクを提供する。
モデルを複数のモデルとタスクにまたがって経験的な結果に合わせると、各モデルタスクペアの固有のエラー率とエラー累積係数を特徴付ける効果的なパラメータが得られ、大きな言語モデルにおける決定論的精度の限界を理解するための原則化されたフレームワークを提供する。
関連論文リスト
- Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models [44.17697803306198]
textitCodeSeqは,数列から構築した合成後トレーニングデータセットである。
パイプラインは、失敗したテストケースを反映し、反復的な修正を取り入れることで、教師付き微妙なデータを生成する。
実験の結果,textitCodeSeqでトレーニングしたモデルでは,様々な推論タスクが改善され,OOD性能が保たれることがわかった。
論文 参考訳(メタデータ) (2025-10-16T12:29:40Z) - Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Uncertainty Determines the Adequacy of the Mode and the Tractability of
Decoding in Sequence-to-Sequence Models [11.258630552727432]
ニューラルシークエンスモデルによって学習された分布のあいまいさ(内在不確実性とも呼ばれる)がどのように形成されるかを分析する。
その結果,ビーム探索誤差の多さ,モードの不十分さ,ビームサイズが大きいシステム性能の低下など,曖昧性の高いタスクに適用できることが示唆された。
論文 参考訳(メタデータ) (2022-04-01T14:30:19Z) - Precise High-Dimensional Asymptotics for Quantifying Heterogeneous Transfers [66.66228496844191]
2つのタスクのサンプルを組み合わせることは、1つのタスクだけを学習するよりも、いつより優れているかを示す。
この問題は、実際には観測されている負転移と呼ばれる経験的な現象によって動機付けられている。
これらの結果をランダム効果モデルで説明し、ソースタスクのサンプル数が増加するにつれて、正から負への位相遷移を数学的に証明する。
論文 参考訳(メタデータ) (2020-10-22T14:14:20Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。