論文の概要: Thinking as Compression: Your Reasoning Model is Secretly a Context Compressor
- arxiv url: http://arxiv.org/abs/2605.28713v1
- Date: Wed, 27 May 2026 16:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.219592
- Title: Thinking as Compression: Your Reasoning Model is Secretly a Context Compressor
- Title(参考訳): コンプレッションとして考える:あなたの推論モデルがコンテキスト圧縮機であることを秘めている
- Authors: Guoxin Ma, Yibing Liu, Chengzhengxu Li, Yu Liang, Yan Wang, Yueyang Zhang, Kecheng Chen, Zhaohan Zhang, Zhiyuan Sun, Daiting Shi,
- Abstract要約: この研究は、思考モデル自体がタスク関連情報を整理することで、自然に長いコンテキストを圧縮できることを明らかにする。
そこで我々は、思考自体を圧縮された文脈として扱う新しい圧縮パラダイムであるThinking as Compression(TaC)を導出した。
- 参考スコア(独自算出の注目度): 18.235525350999335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context compression aims to shorten long context inputs with minimal information loss for LLM inference acceleration. While existing methods have shown promise, they typically rely on complex compression modules or compression-specific training, leaving the intrinsic capabilities of LLMs underexplored. In contrast, this work reveals that a thinking model itself can naturally compress long contexts by organizing task-relevant information. We thus derive Thinking as Compression (TaC), a new compression paradigm that treats thinking itself as compressed context. Without relying on specific dedicated compressor, TaC directly prompts the thinking model to generate thinking traces as the shortened context, already outperforming most representative compression methods. Further, given that raw thinking output may struggle with budget control and shortcut behaviors, we introduce Thinking as Compression Constrained (TaC-C), leveraging a simple reward-driven optimization framework to elicit intrinsic thinking as compact and controllable compressed context. Experiments across four long-context QA benchmarks demonstrate that TaC-C consistently outperforms existing baselines. At 4x and 8x compression ratios, it surpasses the strongest competitor by 17.4% and 23.4% in average F1, and by 15.7% and 21.7% in average Exact Match Score (EM), respectively.
- Abstract(参考訳): コンテキスト圧縮は、LLM推論アクセラレーションのための情報損失を最小限に抑えながら、長いコンテキスト入力を短くすることを目的としている。
既存の手法は将来性を示しているが、それらは一般的に複雑な圧縮モジュールや圧縮固有の訓練に依存しており、LLMの本質的な能力は未解明のままである。
対照的に、この研究は思考モデル自体がタスク関連情報を整理することで、自然に長いコンテキストを圧縮できることを明らかにしている。
そこで我々は、思考自体を圧縮された文脈として扱う新しい圧縮パラダイムであるThinking as Compression(TaC)を導出した。
特定の専用圧縮機を頼らずに、TaCは思考モデルに直接、思考トレースを短縮された文脈として生成させ、ほとんどの代表的圧縮方法よりも優れている。
さらに、生の思考出力が予算管理やショートカットの動作に支障をきたす可能性があることを考慮し、単純な報酬駆動最適化フレームワークを活用して、本質的な思考をコンパクトで制御可能な圧縮コンテキストとして適用する。
4つの長期コンテキストQAベンチマークによる実験は、TaC-Cが既存のベースラインを一貫して上回っていることを示している。
4倍と8倍の圧縮比で、F1の平均は17.4%、23.4%、エクササイズスコアの平均は15.7%、21.7%を上回っている。
関連論文リスト
- Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio [19.375601589555327]
本稿では,Semi-Dynamic Context Compressionフレームワークを紹介する。
本手法では,固有情報密度に基づいて圧縮目標を予測する離散比セレクタを特徴とする。
私たちのフレームワークは、静的なベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-03-26T21:36:55Z) - PoC: Performance-oriented Context Compression for Large Language Models via Performance Prediction [40.705016911274]
パフォーマンス指向コンテキスト圧縮(PoC)へのパラダイムシフトを導入する。
PoCは、最も攻撃的な圧縮比を自動的に見つけるために、軽量なパフォーマンス予測器を使用している。
我々の研究は、より信頼性が高く、効率的で、パフォーマンスに配慮した大規模言語モデルのためのコンテキスト圧縮の展開の道を開いた。
論文 参考訳(メタデータ) (2026-03-20T08:18:46Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - Simple Context Compression: Mean-Pooling and Multi-Ratio Training [12.049015994907629]
我々は、広く使われている圧縮トークンアーキテクチャを一貫して上回る軽量でシンプルな平均プール手法を開発した。
ドメイン内およびドメイン外QAデータセット、モデルファミリ、スケール、圧縮比にわたって、広範な実験を行います。
全体としては,複数の圧縮比のトレーニングを行う場合,比較的少ない低下率で,本手法は最強性能を達成する。
論文 参考訳(メタデータ) (2025-10-23T17:57:23Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors [43.02557489472655]
現在の文脈圧縮法は、文脈に依存しない圧縮トークンを訓練し、文脈意味論を圧縮する自動符号化タスクに依存している。
本稿では,自動符号化タスクベース圧縮から,この圧縮機能を備えたアーキテクチャへ移行する新しい手法であるSemantic-Anchor Compression (SAC)を提案する。
SACは、様々な圧縮比で既存の文脈圧縮手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-10-10T01:42:14Z) - CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。