論文の概要: How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach
- arxiv url: http://arxiv.org/abs/2503.01141v1
- Date: Mon, 03 Mar 2025 03:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:15.706480
- Title: How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach
- Title(参考訳): LLMはどのようにして自身の鎖を圧縮するか? : トーケン複雑性のアプローチ
- Authors: Ayeong Lee, Ethan Che, Tianyi Peng,
- Abstract要約: 推論長とモデル性能の関係について,最初の系統的研究を行った。
このトレードオフは、非常に明確な推論チェーンにまたがって持続することを示す。
提案手法は, 理論的な限界から遠く離れていることを示す。
- 参考スコア(独自算出の注目度): 4.055489363682199
- License:
- Abstract: Chain-of-thought prompting has emerged as a powerful technique for enabling large language models (LLMs) to solve complex reasoning tasks. However, these reasoning chains can be verbose, raising concerns about efficiency. In response, recent works have sought to decrease response lengths through simple prompting strategies (e.g. 'be concise'). In this work, we conduct the first systematic study of the relationship between reasoning length and model performance across a diverse range of compression instructions (e.g. 'use 10 words or less' or 'remove all punctuation'). In doing so, we discover a universal tradeoff between reasoning length and accuracy that persists across even very distinct reasoning chains. We demonstrate that this tradeoff emerges from a sharp threshold behavior at the question level: each task has an intrinsic 'token complexity' - a minimal number of tokens required for successful problem-solving. We show how token complexity enables us to compute information-theoretic limits on the accuracy-compression tradeoff, and find that prompt-based compression strategies operate far from these theoretical limits. This suggests there may be significant room for improvement and our framework provides a benchmark to help researchers evaluate progress in reasoning efficiency. Our work also highlights the importance of adaptive compression -- giving shorter responses for easier questions -- and we show that token complexity is a useful tool for measuring this capability.
- Abstract(参考訳): チェーン・オブ・シークレット・プロンプトは、大規模言語モデル(LLM)が複雑な推論タスクを解くための強力な技術として登場した。
しかし、これらの推論連鎖は冗長であり、効率性への懸念を提起する。
これに対し、最近の研究は単純なプロンプト戦略(例えば「簡潔」)によって応答長を減少させようとしている。
本研究では,多種多様な圧縮命令(例えば「10語以下の使用」や「全句の削除」など)における推論長とモデル性能の関係について,最初の系統的研究を行った。
そうすることで、推論の長さと精度の共通的なトレードオフが発見され、非常に明確な推論連鎖にまたがって持続する。
それぞれのタスクには固有の'トーケン複雑性'があり、問題解決に必要となるトークンは最小限です。
トークンの複雑さが,精度-圧縮トレードオフにおける情報理論的限界を計算するのにどのように役立つかを示し,これらの理論的限界から遥かに離れていることを確かめる。
これは、改善の余地が大いにあることを示唆し、我々のフレームワークは、研究者が推論効率の進歩を評価するのに役立つベンチマークを提供する。
私たちの研究は、適応圧縮の重要性も強調しています -- より簡単な質問に対して、より短いレスポンスを提供する -- 。
関連論文リスト
- CoT-Valve: Length-Compressible Chain-of-Thought Tuning [50.196317781229496]
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-13T18:52:36Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression [41.71994217868039]
ギストベースの圧縮は,検索強化生成や長期文書QAといったタスクにおいて,ほぼ無作為な性能が得られることを示す。
境界によって失われ、サプライズによって失われ、途中で失われる3つの重要な障害パターンを特定します。
本稿では,従来のトークン情報の復号化を促進させる細粒度自動符号化と,セグメント単位のトークン重要度推定という2つの効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T11:24:04Z) - Markov Chain of Thought for Efficient Mathematical Reasoning [10.678633785012691]
多段階の思考の連鎖(CoT)は、推論ステップとタスク固有のアクションの論理構造から恩恵を受ける。
我々は、標準多段階CoTを思考のマルコフ連鎖(MCoT)として概念化する。
論文 参考訳(メタデータ) (2024-10-23T07:53:29Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。
中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。
多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文 参考訳(メタデータ) (2022-10-03T05:33:27Z) - Least-to-Most Prompting Enables Complex Reasoning in Large Language
Models [52.59923418570378]
本稿では, 難解な一般化の課題を克服するために, 最小限のプロンプト戦略を提案する。
最小限のプロンプトは、プロンプトで見られるものよりも難しい問題に一般化可能であることを示す。
SCANの解決を専門とする文献におけるニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体をトレーニングする。
論文 参考訳(メタデータ) (2022-05-21T15:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。