論文の概要: Upfront Chain-of-Thought: A Cooperative Framework for Chain-of-Thought Compression
- arxiv url: http://arxiv.org/abs/2510.08647v1
- Date: Thu, 09 Oct 2025 06:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.298057
- Title: Upfront Chain-of-Thought: A Cooperative Framework for Chain-of-Thought Compression
- Title(参考訳): チェーン・オブ・ワウト:チェーン・オブ・ワウト・コンプレッションのための協調的枠組み
- Authors: Chengzhengxu Li, Xiaoming Liu, Zhaohan Zhang, Shaochu Zhang, Shengchao Liu, Guoxin Ma, Yu Lan, Chao Shen,
- Abstract要約: Upfront CoT (UCoT) は、Chain-of-Thought (CoT) 圧縮を自動化するために事前思考を組み込んだ効率的な推論フレームワークである。
UCoTはエグゼクタの強力な推論能力を維持しつつ、CoTの長さを大幅に削減している。
- 参考スコア(独自算出の注目度): 29.354544133745453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments have enabled advanced reasoning in Large Language Models (LLMs) via long Chain-of-Thought (CoT), while long CoT suffers from high computational costs and significant latency losses owing to the autoregressive nature of generative LLMs. CoT compression aims to improve efficiency in the reasoning process by reducing output length. Previous works trade reasoning efficiency by either laborious discrete prompt designing or the construction of external compressed CoT datasets that sacrifice key reasoning details. In this work, we propose Upfront CoT (UCoT): an efficient reasoning framework with upfront thought embedding to automate CoT compression. UCoT is a cooperative workflow involving a small model (compressor) and a large model (executor). The first stage of UCoT trains compressor to generate upfront thought embeddings rich in reasoning information for the executor, avoiding the drawbacks of manually designed prompts. The second stage optimizes executor to utilize upfront thought embeddings to derive the correct answer with short reasoning, using a reward mechanism. Extensive experiments show that UCoT maintains the powerful reasoning ability of executor while significantly reducing the length of CoT. It is worth mentioning that when applying UCoT to the Qwen2.5-7B-Instruct model, the usage of tokens on GSM8K dataset is reduced by 50\%, while the performance is 3.08\% higher than that of the state-of-the-art (SOTA) method. The code and dataset are in supplementary material.
- Abstract(参考訳): 近年の大規模言語モデル (LLMs) では, 長期のチェーン・オブ・ソート (CoT) による高度な推論が実現されているが, 生成LDMの自己回帰的性質により, CoT は高い計算コストと大幅な遅延損失に悩まされている。
CoT圧縮は、出力長を削減して推論プロセスの効率を向上させることを目的としている。
従来の作業では、離散的なプロンプト設計や、重要な推論の詳細を犠牲にした外部圧縮されたCoTデータセットの構築による推論効率の取引が行われた。
本研究では,CoT圧縮を自動化するために,事前思考を組み込んだ効率的な推論フレームワークであるUpfront CoT (UCoT)を提案する。
UCoTは、小さなモデル(圧縮機)と大きなモデル(実行機)を含む協調ワークフローである。
UCoTの最初の段階は、手動で設計されたプロンプトの欠点を避けるために、実行者の推論情報に富んだ事前の思考埋め込みを生成するために圧縮機を訓練した。
第2段階は、報酬メカニズムを使用して、前もって思考の埋め込みを利用して正しい答えを短い推論で導き出すよう実行者を最適化する。
大規模な実験により、UCoTはエグゼキュータの強力な推論能力を維持しつつ、CoTの長さを著しく減少させることが示された。
なお、Qwen2.5-7B-InstructモデルにUCoTを適用すると、GSM8Kデータセット上のトークンの使用量は50\%削減され、パフォーマンスは最先端(SOTA)メソッドよりも3.08\%向上した。
コードとデータセットは補助的な素材である。
関連論文リスト
- Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework [10.148124073650349]
Chain-of-Thought(CoT)推論はLarge Language Models(LLMs)を強化する
より長いアウトプットは、レイテンシ、メモリ使用量、KV-cache要求を増加させる。
精度を保ちながらCOTを圧縮する適応型フレームワークSEER(Self-Enhancing Efficient Reasoning)を提案する。
論文 参考訳(メタデータ) (2025-09-17T15:33:44Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains [15.89404914539006]
潜在空間における推論過程を動的に圧縮する新しいフレームワークであるCompressed Latent Reasoning (CoLaR)を紹介する。
CoLaRは、同等の圧縮比で遅延ベースのベースライン法よりも14.1%高い精度を達成する。
我々のRL強化CoLaRは、最大5.4%の性能向上を示しながら、遅延推論チェーン長を82.8%劇的に減少させる。
論文 参考訳(メタデータ) (2025-05-22T11:40:26Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Efficient Reasoning Models: A Survey [73.00621058885054]
本調査は,近年の効率的な推論の進歩を包括的に概観することを目的としている。
1)短い圧縮CoTを簡潔で効果的な推論チェーンに、(2)より小さい - 強力な推論能力を持つコンパクトな言語モデルを開発する、(3)より高速に、という3つの重要な方向性に分類する。
論文 参考訳(メタデータ) (2025-04-15T06:28:00Z) - C3oT: Generating Shorter Chain-of-Thought without Compromising Effectiveness [18.073777359647515]
解答の導出前のChain-of-Thought(CoT)は、大規模言語モデル(LLM)の推論能力を改善することができる。
しかし、生成したCoTの長さは、望ましい最終回答よりもはるかに長いため、さらなる復号コストが生じる。
本稿では、圧縮機がオリジナルの長いCoTを短いCoTに圧縮するCOT圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-16T11:12:45Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。