Fugu-MT 論文翻訳(概要): When More is Less: Understanding Chain-of-Thought Length in LLMs

論文の概要: When More is Less: Understanding Chain-of-Thought Length in LLMs

arxiv url: http://arxiv.org/abs/2502.07266v1
Date: Tue, 11 Feb 2025 05:28:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.011686
Title: When More is Less: Understanding Chain-of-Thought Length in LLMs
Title（参考訳）: LLMにおけるチェーン・オブ・ソート長の理解
Authors: Yuyang Wu, Yifei Wang, Tianqi Du, Stefanie Jegelka, Yisen Wang,
Abstract要約: CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
参考スコア（独自算出の注目度）: 53.77747102201451
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Chain-of-thought (CoT) reasoning enhances the multi-step reasoning capabilities of large language models (LLMs) by breaking complex tasks into smaller, manageable sub-tasks. Researchers have been exploring ways to guide models to generate more complex CoT processes to improve the reasoning ability of LLMs, such as long CoT and the test-time scaling law. However, for most models and tasks, does an increase in CoT length consistently lead to improved reasoning accuracy? In this paper, we observe a nuanced relationship: as the number of reasoning steps increases, performance initially improves but eventually decreases. To understand this phenomenon, we provide a piece of evidence that longer reasoning processes are increasingly susceptible to noise. We theoretically prove the existence of an optimal CoT length and derive a scaling law for this optimal length based on model capability and task difficulty. Inspired by our theory, we conduct experiments on both synthetic and real world datasets and propose Length-filtered Vote to alleviate the effects of excessively long or short CoTs. Our findings highlight the critical need to calibrate CoT length to align with model capabilities and task demands, offering a principled framework for optimizing multi-step reasoning in LLMs.
Abstract（参考訳）: CoT推論は、複雑なタスクをより小さく管理可能なサブタスクに分割することで、大規模言語モデル(LLM)の多段階推論能力を高める。研究者は、長いCoTやテストタイムスケーリング法則のようなLLMの推論能力を改善するために、より複雑なCoTプロセスを生成するためのモデルをガイドする方法を模索してきた。しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。この現象を理解するために、より長い推論プロセスがノイズに影響を受けやすいという証拠をいくつか提示する。理論的には、最適なCoT長の存在を証明し、モデル能力とタスク難易度に基づいて、この最適長のスケーリング法則を導出する。我々の理論に触発されて、我々は合成と実世界の両方のデータセットで実験を行い、過剰に長いCoTや短いCoTの効果を軽減するためにLongth-filtered Voteを提案する。本研究は,LLMにおける多段階推論を最適化するための基本的フレームワークとして,モデル能力とタスク要求に合わせたCoT長の校正の必要性を強調した。

関連論文リスト

Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文参考訳（メタデータ） (2025-08-05T11:48:18Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文参考訳（メタデータ） (2025-07-14T01:14:50Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文参考訳（メタデータ） (2025-04-30T18:48:06Z)
ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.170732359523702]
OpenAI o3やDeepSeek-R1のような推論モデルは、推論集約的なタスクに対して強力なパフォーマンスを示している。長い推論トレースは、複雑な問題に対する解経路のより徹底的な探索を促進する。 ShorterBetterは、推論言語モデルによる最適なCoT長の発見を可能にする、シンプルで効果的な強化学習手法である。
論文参考訳（メタデータ） (2025-04-30T07:04:19Z)
Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering [59.34894142132706]
既存の作業では、いくつかの例だけをチューニングすることで、長いCoT推論の能力を効率的に引き出すことができる。このことは、LLMの一般的な能力であるCoT推論の長さを調査する動機となっている。 LLMの一般的な長大CoT推論能力を解き放つ新しい表現工学手法であるGLoREを提案する。
論文参考訳（メタデータ） (2025-03-14T11:30:37Z)
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。 DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。 DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文参考訳（メタデータ） (2025-02-26T17:59:27Z)
Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization [35.16980045900664]
変圧器に基づく言語モデル(LM)の展開において、分散シフト下における新しい複合タスクへの一般化が重要である本研究は、OODの一般化を促進する手段として、Chain-of-Thought (CoT)推論を考察する。
論文参考訳（メタデータ） (2025-02-25T15:04:17Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [56.75518291450102]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (2025-01-22T01:35:11Z)
Markov Chain of Thought for Efficient Mathematical Reasoning [10.678633785012691]
多段階の思考の連鎖(CoT)は、推論ステップとタスク固有のアクションの論理構造から恩恵を受ける。我々は、標準多段階CoTを思考のマルコフ連鎖(MCoT)として概念化する。
論文参考訳（メタデータ） (2024-10-23T07:53:29Z)
From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency [17.612497960364916]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論性能を著しく向上させる代表電力が十分である場合でも,CoTは試料効率を大幅に向上できることを示す。 CoTは入力トークン間のスパース依存関係を導入して学習プロセスを単純化し、スパースかつ解釈可能な注意を喚起することを示す。
論文参考訳（メタデータ） (2024-10-07T19:45:09Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.147529569445396]
Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。 ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文参考訳（メタデータ） (2024-06-13T14:07:02Z)
The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文参考訳（メタデータ） (2024-01-10T04:37:38Z)
Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する無効な実演でもCoT推論が可能であることを示す。
論文参考訳（メタデータ） (2022-12-20T05:20:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。