論文の概要: Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains
- arxiv url: http://arxiv.org/abs/2604.02343v1
- Date: Mon, 09 Feb 2026 18:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.309689
- Title: Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains
- Title(参考訳): ハイクが10ビットでオプスへ:LLMが大量圧縮を解き放つ
- Authors: Roy Rinberg, Annabelle Michael Carrell, Simon Henniger, Nicholas Carlini, Keri Warr,
- Abstract要約: ゲーム「Twenty Questions」に触発された対話型ロッキープロトコル「QA」について紹介する。
数学、科学、コードにまたがる8つのベンチマークでは、10のバイナリ質問が、標準ベンチマーク上の小さなモデルと大きなモデルの間の能力ギャップの23%から72%を回復する。
これは以前のLCMベースの圧縮より100倍以上小さい。
- 参考スコア(独自算出の注目度): 29.943032644387362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the compression of LLM-generated text across lossless and lossy regimes, characterizing a compression-compute frontier where more compression is possible at the cost of more compute. For lossless compression, domain-adapted LoRA adapters can improve LLM-based arithmetic coding by 2x over compression with the base LLM alone. For lossy compression, prompting a model for a succinct rewrite then applying arithmetic coding can achieve compression ratios of approximately 0.03, a 2x improvement over compressing the original response. We further introduce Question-Asking compression (QA), an interactive lossy protocol inspired by the game 'Twenty Questions'. A small model iteratively refines its response by asking yes/no questions to a stronger model, transferring exactly one bit per answer. On 8 benchmarks spanning math, science, and code, 10 binary questions recover 23% to 72% of the capability gap between a small and large model on standard benchmarks and 7% to 38% on harder benchmarks, achieving compression ratios of 0.0006 to 0.004. This is over 100x smaller than prior LLM-based compression (Deletang et al., 2024), suggesting that interactive protocols can transfer knowledge far more efficiently than transmitting full responses.
- Abstract(参考訳): 我々は,LLM生成したテキストの圧縮を損失のない状態と損失のない状態に分けて検討し,より多くの計算コストで圧縮が可能となる圧縮計算フロンティアを特徴付ける。
ロスレス圧縮では、ドメイン適応型LoRAアダプタは、LLMのみによる2倍の圧縮でLLMベースの算術符号化を改善することができる。
損失圧縮では、簡潔な書き直しのモデルを実行し、算術符号を適用することで、元の応答を圧縮する2倍の改善である約0.03の圧縮比を達成できる。
さらに,ゲーム「Twenty Questions」に触発された対話型ロッキープロトコル「QA」についても紹介する。
小さなモデルは、より強いモデルにイエス/ノーの質問をし、答えごとに正確に1ビットを転送することで、反応を反復的に洗練します。
数学、科学、コードにまたがる8つのベンチマークでは、10のバイナリ質問が、標準ベンチマークの小さなモデルと大きなモデルの能力ギャップの23%から72%を回復し、より厳しいベンチマークでは7%から38%を回復し、圧縮比0.0006から0.004を達成する。
これは従来のLCMベースの圧縮(Deletang et al , 2024)よりも100倍以上小さく、対話型プロトコルは完全な応答を伝達するよりもはるかに効率的に知識を伝達できることを示唆している。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - FineZip : Pushing the Limits of Large Language Models for Practical Lossless Text Compression [1.9699843876565526]
FineZipは、オンライン記憶と動的コンテキストのアイデアを組み合わせて圧縮時間を劇的に短縮する新しいテキスト圧縮システムである。
FineZipは上記のコーパスを9.5日と比較すると約4時間で圧縮できる。
論文 参考訳(メタデータ) (2024-09-25T17:58:35Z) - Lossless data compression by large models [18.747845226548456]
6G通信速度要件は、データ圧縮の革新的な新しいアイデアに対して、オープンな疑問を提起する。
大規模な言語モデル(LLM)は、これまで以上にデータをよりよく理解しています。
従来の圧縮アルゴリズムを全て破壊するLMCompressを提案する。
論文 参考訳(メタデータ) (2024-06-24T03:58:11Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - Deep Lossy Plus Residual Coding for Lossless and Near-lossless Image
Compression [85.93207826513192]
本稿では、損失のない画像圧縮とほぼロスレス画像圧縮の両面において、統合された強力な深い損失+残差(DLPR)符号化フレームワークを提案する。
VAEのアプローチにおける連立損失と残留圧縮の問題を解く。
ほぼロスレスモードでは、元の残差を量子化し、与えられた$ell_infty$エラー境界を満たす。
論文 参考訳(メタデータ) (2022-09-11T12:11:56Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。