論文の概要: R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search
- arxiv url: http://arxiv.org/abs/2505.16838v1
- Date: Thu, 22 May 2025 16:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.435051
- Title: R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search
- Title(参考訳): R1圧縮:チャンク圧縮と検索による長鎖圧縮
- Authors: Yibo Wang, Li Shen, Huanjin Yao, Tiansheng Huang, Rui Liu, Naiqiang Tan, Jiaxing Huang, Kai Zhang, Dacheng Tao,
- Abstract要約: CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
- 参考スコア(独自算出の注目度): 61.4807238517108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning enhances large language models (LLMs) by enabling step-by-step problem-solving, yet its extension to Long-CoT introduces substantial computational overhead due to increased token length. Existing compression approaches -- instance-level and token-level -- either sacrifice essential local reasoning signals like reflection or yield incoherent outputs. To address these limitations, we propose R1-Compress, a two-stage chunk-level compression framework that preserves both local information and coherence. Our method segments Long-CoT into manageable chunks, applies LLM-driven inner-chunk compression, and employs an inter-chunk search mechanism to select the short and coherent sequence. Experiments on Qwen2.5-Instruct models across MATH500, AIME24, and GPQA-Diamond demonstrate that R1-Compress significantly reduces token usage while maintaining comparable reasoning accuracy. On MATH500, R1-Compress achieves an accuracy of 92.4%, with only a 0.6% drop compared to the Long-CoT baseline, while reducing token usage by about 20%. Source code will be available at https://github.com/w-yibo/R1-Compress
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化するが、Long-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
既存の圧縮アプローチ -- インスタンスレベルとトークンレベル -- は、リフレクションのような必須のローカル推論シグナルを犠牲にするか、一貫性のない出力を出力します。
これらの制約に対処するため、ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークR1-Compressを提案する。
提案手法は,Long-CoTを制御可能なチャンクに分割し,LLM駆動のインナーチャンク圧縮を適用し,ショートおよびコヒーレントシーケンスを選択するためにチャンク間探索機構を用いる。
MATH500、AIME24、GPQA-DiamondのQwen2.5-Instructモデルに対する実験では、R1-Compressはトークンの使用を著しく削減し、同等の推論精度を維持している。
MATH500では、R1-Compressの精度は92.4%で、Long-CoTベースラインに比べてわずか0.6%の低下しかなく、トークン使用量を約20%削減している。
ソースコードはhttps://github.com/w-yibo/R1-Compressで入手できる。
関連論文リスト
- Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning [4.856070170902535]
Reasoning Path Compression (RPC) は推論を高速化する訓練のない手法である。
RPCは、完全なKVキャッシュの推論と比較して、QwQ-32Bの生成スループットを最大1.60$times$で改善することを示す。
本研究は, 推理トレースのセマンティック・スパシティを効果的に圧縮に利用し, 推理LSMの効率的な展開に向けた実践的な道筋を提供することを実証した。
論文 参考訳(メタデータ) (2025-05-20T03:21:52Z) - TokenSkip: Controllable Chain-of-Thought Compression in LLMs [11.583847083770031]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明されている。
TokenSkipは、LLMが重要でないトークンを選択的にスキップし、制御可能なCoT圧縮を可能にする、シンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-02-17T17:37:26Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。