論文の概要: On the Bias of Next-Token Predictors Toward Systematically Inefficient Reasoning: A Shortest-Path Case Study
- arxiv url: http://arxiv.org/abs/2507.05362v2
- Date: Sat, 01 Nov 2025 15:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:22.124859
- Title: On the Bias of Next-Token Predictors Toward Systematically Inefficient Reasoning: A Shortest-Path Case Study
- Title(参考訳): 系統的非効率推論に向けた次世代予測器のバイアスについて--最短ケーススタディ
- Authors: Riccardo Alberghi, Elizaveta Demyanenko, Luca Biggio, Luca Saglietti,
- Abstract要約: 大規模言語モデルにおける推論を改善するための2つの重要な要因について検討する。
我々は、カスタムトークン化器を用いて、質問-トレース-回答三重項に対してデコーダのみの変換器を訓練する。
同じトレーニングの予算で、非効率なトレースで訓練されたモデルは、目に見えないグラフよりも一般化される。
- 参考スコア(独自算出の注目度): 4.798155648915794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in natural language processing highlight two key factors for improving reasoning in large language models (LLMs): (i) allocating more test-time compute tends to help on harder problems but often introduces redundancy in the reasoning trace, and (ii) compute is most effective when reasoning is systematic and incremental, forming structured chains of thought (CoTs) akin to human problem-solving. To study these factors in isolation, we introduce a controlled setting based on shortest-path tasks in layered graphs. We train decoder-only transformers on question-trace-answer triples using a custom tokenizer, comparing models trained on optimal bottom-up dynamic programming traces with those trained on longer, valid traces involving backtracking. Surprisingly, with the same training-token budget, models trained on inefficient traces generalize better to unseen graphs. This benefit is not due to length alone-injecting arbitrary redundancy into reasoning traces fails to help and can even hurt performance. Instead, we find that generalization correlates with the model's confidence in next-token prediction, suggesting that long, coherent, and locally incremental traces make the training signal easier to optimize.
- Abstract(参考訳): 自然言語処理の最近の進歩は、大規模言語モデル(LLM)における推論を改善するための2つの重要な要因を浮き彫りにしている。
i) より多くのテスト時間計算を割り当てることは、難しい問題に役立ちますが、しばしば推論トレースの冗長性を導入します。
(II) 推論が体系的かつ漸進的であり、人間の問題解決に類似した構造化された思考の連鎖(CoT)を形成する場合、計算は最も効果的である。
これらの要因を分離して研究するために、階層グラフにおける最短パスタスクに基づいた制御設定を導入する。
カスタムトークン化器を用いて,デコーダのみのトランスフォーマをトレーニングし,最適なボトムアップ動的プログラミングトレースをトレーニングしたモデルと,バックトラッキングを含むより長い有効なトレースをトレーニングしたモデルを比較した。
驚くべきことに、トレーニングの予算は同じで、非効率なトレースで訓練されたモデルは、目に見えないグラフよりも一般化されている。
この利点は、任意の冗長性を推論トレースに注入する長さだけでは役に立たないためではなく、パフォーマンスを損なう可能性がある。
代わりに、一般化はモデルが次から次へと予測する自信と相関し、長い、一貫性があり、局所的なトレースがトレーニング信号の最適化を容易にすることを示唆する。
関連論文リスト
- Bidirectional Curriculum Generation: A Multi-Agent Framework for Data-Efficient Mathematical Reasoning [16.95900718416944]
各トレーニングサンプルの教育的価値を最大化するために,新しい双方向カリキュラム生成フレームワークを導入する。
剛性軌道とは異なり、我々のマルチエージェントエコシステムは適応的な教育を模倣し、閉じたフィードバックループを確立する。
このメカニズムは、モデルが任意の段階で最も効果的なデータのみを消費することを保証します。
論文 参考訳(メタデータ) (2026-03-05T12:49:21Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - Performative Thinking? The Brittle Correlation Between CoT Length and Problem Complexity [23.225139930889522]
本研究は,中間トークン列長が問題難易度と相関するか否かを批判的に検討する。
我々は、A*探索アルゴリズムの導出トレースに基づいて、スクラッチからトランスフォーマーモデルを訓練する。
最も単純なタスクであっても、しばしば過度に長い推論トレースを生成し、時にはソリューションの生成に失敗する。
論文 参考訳(メタデータ) (2025-09-09T02:31:16Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation [14.489157453882767]
この研究は、推論トレースと最終的なパフォーマンスとの相関を評価することの課題に対処することを目的としている。
規則に基づく問題分解を利用して解釈可能なトレースを生成する。
具体的には、この問題を分類ステップと情報検索ステップに分解して、オープンブックQAにおけるこのアプローチを実証する。
論文 参考訳(メタデータ) (2025-05-20T00:49:19Z) - Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning [31.21491548356213]
バックトラックは、長いチェーン・オブ・シント(CoT)生成による逐次線形化探索を可能にすることによって、テスト時間計算を自然にスケールする。
シーケンシャル検索の普及にもかかわらず、並列サンプリングよりも優位性はよく分かっていない。
バックトラック機能を持つモデルはRL微調整の恩恵を受けるが,バックトラック機能を持たないモデルは限定的かつ混合的なゲインを示す。
論文 参考訳(メタデータ) (2025-04-09T17:12:49Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。