論文の概要: When Less is More: The LLM Scaling Paradox in Context Compression
- arxiv url: http://arxiv.org/abs/2602.09789v1
- Date: Tue, 10 Feb 2026 13:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.559209
- Title: When Less is More: The LLM Scaling Paradox in Context Compression
- Title(参考訳): より少ない場合: コンテキスト圧縮におけるLLMスケーリングパラドックス
- Authors: Ruishan Guo, Yibing Liu, Guoxin Ma, Yan Wang, Yueyang Zhang, Long Xia, Kecheng Chen, Zhiyuan Sun, Daiting Shi,
- Abstract要約: 圧縮機サイズの増大は、再構成されたコンテキストの忠実度を低下させる。
原因はパラメータ数ではなく,過剰な意味能力と,スケーリングに伴う生成の不確実性の増幅である。
- 参考スコア(独自算出の注目度): 14.27795208607174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling up model parameters has long been a prevalent training paradigm driven by the assumption that larger models yield superior generation capabilities. However, under lossy context compression in a compressor-decoder setup, we observe a Size-Fidelity Paradox: increasing the compressor size can lessen the faithfulness of reconstructed contexts though training loss decreases. Through extensive experiments across models from 0.6B to 90B, we coin this paradox arising from two dominant factors: 1) knowledge overwriting: larger models increasingly replace source facts with their own prior beliefs, e.g., ``the white strawberry'' $\to$ ``the red strawberry''; and 2) semantic drift: larger models tend to paraphrase or restructure content instead of reproducing it verbatim, e.g., ``Alice hit Bob'' $\to$ ``Bob hit Alice''. By holding model size fixed, we reflect on the emergent properties of compressed context representations. We show that the culprit is not parameter count itself, but the excessive semantic capacity and amplified generative uncertainty that accompany scaling. Specifically, the increased rank of context embeddings facilitates prior knowledge intrusion, whereas higher entropy over token prediction distributions promotes rewriting. Our results complement existing evaluations over context compression paradigm, underpinning a breakdown in scaling laws for faithful preservation in open-ended generation.
- Abstract(参考訳): モデルパラメータのスケールアップは、より大きなモデルがより優れた生成能力をもたらすという仮定によって、長年にわたって一般的なトレーニングパラダイムでした。
しかし, 圧縮機とデコーダを併用した場合, 圧縮機サイズが増大すると, トレーニング損失が減少しても, 再構成コンテキストの忠実度が低下する。
0.6B から 90B までのモデルにわたる広範な実験を通じて、このパラドックスは2つの主要な要因から生じる。
1) 知識のオーバーライト: より大きなモデルは、ソースの事実を自身の以前の信念であるeg, ``the white strawberry''' $\to$ ``the red strawberry'' に置き換える傾向にある。
2)セマンティックドリフト: 大きなモデルは、bob''の$\to$ ``Bob hit Alice''を再生する代わりに、bobatim, e g , ``Alice hit Bob''を言い換えたり、コンテントを再構成する傾向がある。
モデルサイズを固定することにより、圧縮された文脈表現の創発的特性を反映する。
原因はパラメータ数ではなく,過剰な意味能力と,スケーリングに伴う生成の不確実性の増幅である。
特に、文脈埋め込みのランクの上昇は事前知識の侵入を促進するが、トークン予測分布よりも高いエントロピーは書き換えを促進する。
本研究は,オープンエンド世代における忠実な保存のためのスケーリング法則の崩壊を背景として,文脈圧縮パラダイムに対する既存の評価を補完するものである。
関連論文リスト
- Dispersion Loss Counteracts Embedding Condensation and Improves Generalization in Small Language Models [55.908141398092646]
大規模言語モデル(LLM)はパラメータ数の増加によって顕著な性能を達成するが、スケーリングは計算コストの急激な増加を招く。
本研究では,LLMと小型モデルの表現特性を再現することを目的として,LLMと小型モデルの表現特性の相違について検討する。
我々は、 $textttGPT2$ や $textttQwen3-0.6B$ のような小さなモデルは、深刻な凝縮を示し、 $textttGPT2-xl$ や $textttQwen3-32B のような大きなモデルは、
論文 参考訳(メタデータ) (2026-01-30T16:07:03Z) - On the Entropy Calibration of Language Models [52.47557449370603]
本研究では,言語モデルのエントロピーが人間のテキスト上でのログ損失と一致しているかを問うエントロピーキャリブレーションの問題について検討する。
観測されたスケーリングの挙動は、単純化された設定によって予測されるものと類似していることがわかった。
将来的なテキストのエントロピーを予測するために,モデルに適合するブラックボックスへのアクセスを前提にすれば,それが可能であることが証明できる。
論文 参考訳(メタデータ) (2025-11-15T00:33:03Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Diffusion Counterfactuals for Image Regressors [1.534667887016089]
拡散型生成モデルを用いて、画像回帰タスクの反実的説明を生成する2つの方法を提案する。
どちらもCelebA-HQと合成データセット上で現実的でセマンティックでスムーズな偽物を生成する。
回帰反事実に対して,特徴の変化は予測値の領域に依存することがわかった。
論文 参考訳(メタデータ) (2025-03-26T14:42:46Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision
Transformers [81.31885548824926]
自己注意型モデルであるTransformerは近年,コンピュータビジョン分野における主要なバックボーンになりつつある。
解釈可能性を考慮した冗長度低減フレームワーク(IA-RED$2$)を提案する。
画像タスクとビデオタスクの両方で広範囲に実験を行い、最大1.4倍のスピードアップを実現しました。
論文 参考訳(メタデータ) (2021-06-23T18:29:23Z) - Reliable Model Compression via Label-Preservation-Aware Loss Functions [14.368823297066276]
本稿では,教師の学習パラダイムを用いてラベルの保存を改善するフレームワークを提案する。
圧縮モデルと参照モデルとのミスマッチ数を最大4.1倍に削減する。
論文 参考訳(メタデータ) (2020-12-03T00:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。