Fugu-MT 論文翻訳(概要): R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search

論文の概要: R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search

arxiv url: http://arxiv.org/abs/2505.16838v1
Date: Thu, 22 May 2025 16:06:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.435051
Title: R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search
Title（参考訳）: R1圧縮:チャンク圧縮と検索による長鎖圧縮
Authors: Yibo Wang, Li Shen, Huanjin Yao, Tiansheng Huang, Rui Liu, Naiqiang Tan, Jiaxing Huang, Kai Zhang, Dacheng Tao,
Abstract要約: CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。 CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
参考スコア（独自算出の注目度）: 61.4807238517108
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chain-of-Thought (CoT) reasoning enhances large language models (LLMs) by enabling step-by-step problem-solving, yet its extension to Long-CoT introduces substantial computational overhead due to increased token length. Existing compression approaches -- instance-level and token-level -- either sacrifice essential local reasoning signals like reflection or yield incoherent outputs. To address these limitations, we propose R1-Compress, a two-stage chunk-level compression framework that preserves both local information and coherence. Our method segments Long-CoT into manageable chunks, applies LLM-driven inner-chunk compression, and employs an inter-chunk search mechanism to select the short and coherent sequence. Experiments on Qwen2.5-Instruct models across MATH500, AIME24, and GPQA-Diamond demonstrate that R1-Compress significantly reduces token usage while maintaining comparable reasoning accuracy. On MATH500, R1-Compress achieves an accuracy of 92.4%, with only a 0.6% drop compared to the Long-CoT baseline, while reducing token usage by about 20%. Source code will be available at https://github.com/w-yibo/R1-Compress
Abstract（参考訳）: CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化するが、Long-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。既存の圧縮アプローチ -- インスタンスレベルとトークンレベル -- は、リフレクションのような必須のローカル推論シグナルを犠牲にするか、一貫性のない出力を出力します。これらの制約に対処するため、ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークR1-Compressを提案する。提案手法は,Long-CoTを制御可能なチャンクに分割し,LLM駆動のインナーチャンク圧縮を適用し,ショートおよびコヒーレントシーケンスを選択するためにチャンク間探索機構を用いる。 MATH500、AIME24、GPQA-DiamondのQwen2.5-Instructモデルに対する実験では、R1-Compressはトークンの使用を著しく削減し、同等の推論精度を維持している。 MATH500では、R1-Compressの精度は92.4%で、Long-CoTベースラインに比べてわずか0.6%の低下しかなく、トークン使用量を約20%削減している。ソースコードはhttps://github.com/w-yibo/R1-Compressで入手できる。

関連論文リスト

Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains [15.89404914539006]
潜在空間における推論過程を動的に圧縮する新しいフレームワークであるCompressed Latent Reasoning (CoLaR)を紹介する。 CoLaRは、同等の圧縮比で遅延ベースのベースライン法よりも14.1%高い精度を達成する。我々のRL強化CoLaRは、最大5.4%の性能向上を示しながら、遅延推論チェーン長を82.8%劇的に減少させる。
論文参考訳（メタデータ） (2025-05-22T11:40:26Z)
Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning [4.856070170902535]
Reasoning Path Compression (RPC) は推論を高速化する訓練のない手法である。 RPCは、完全なKVキャッシュの推論と比較して、QwQ-32Bの生成スループットを最大1.60$times$で改善することを示す。本研究は, 推理トレースのセマンティック・スパシティを効果的に圧縮に利用し, 推理LSMの効率的な展開に向けた実践的な道筋を提供することを実証した。
論文参考訳（メタデータ） (2025-05-20T03:21:52Z)
TokenSkip: Controllable Chain-of-Thought Compression in LLMs [11.583847083770031]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明されている。 TokenSkipは、LLMが重要でないトークンを選択的にスキップし、制御可能なCoT圧縮を可能にする、シンプルで効果的なアプローチである。
論文参考訳（メタデータ） (2025-02-17T17:37:26Z)
Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。 API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-07-02T08:17:00Z)
In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文参考訳（メタデータ） (2024-06-19T15:14:55Z)
LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文参考訳（メタデータ） (2024-06-08T01:35:11Z)
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:56Z)
LeCo: Lightweight Compression via Learning Serial Correlations [9.108815508920882]
軽量データ圧縮は、カラムストアが分析クエリのパフォーマンスを向上する鍵となる技術である。本稿では,機械学習を用いて値列内のシリアル冗長性を自動的に除去するフレームワークであるLeCo(Learned Compression)を提案する。我々は、Arrow列実行エンジンのデータ解析クエリで最大5.2倍のスピードで、RocksDBのスループットが16%向上するのを観察した。
論文参考訳（メタデータ） (2023-06-27T10:46:36Z)
DiffRate : Differentiable Compression Rate for Efficient Vision Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。 DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文参考訳（メタデータ） (2023-05-29T10:15:19Z)
Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。 52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文参考訳（メタデータ） (2021-05-24T12:07:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。