論文の概要: Data Distribution Matters: A Data-Centric Perspective on Context Compression for Large Language Model
- arxiv url: http://arxiv.org/abs/2602.01778v1
- Date: Mon, 02 Feb 2026 08:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.999635
- Title: Data Distribution Matters: A Data-Centric Perspective on Context Compression for Large Language Model
- Title(参考訳): データ分散問題:大規模言語モデルにおける文脈圧縮に関するデータ中心的視点
- Authors: Kangtao Lv, Jiwei Tang, Langming Liu, Haibin Chen, Weidong Zhang, Shilei Liu, Yongwei Wang, Yujin Yuan, Wenbo Su, Bo Zheng,
- Abstract要約: 入力データと固有データという2つの次元を含む圧縮品質に,データ分布がどのような影響を及ぼすかを検討する。
エンコーダで測定された入力エントロピーは圧縮品質と負の相関を示す一方,デコーダで測定されたエントロピーは凍結デコーダ設定下では有意な相関は示さない。
- 参考スコア(独自算出の注目度): 20.1054266241262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Large Language Models (LLMs) in long-context scenarios is hindered by computational inefficiency and significant information redundancy. Although recent advancements have widely adopted context compression to address these challenges, existing research only focus on model-side improvements, the impact of the data distribution itself on context compression remains largely unexplored. To bridge this gap, we are the first to adopt a data-centric perspective to systematically investigate how data distribution impacts compression quality, including two dimensions: input data and intrinsic data (i.e., the model's internal pretrained knowledge). We evaluate the semantic integrity of compressed representations using an autoencoder-based framework to systematically investigate it. Our experimental results reveal that: (1) encoder-measured input entropy negatively correlates with compression quality, while decoder-measured entropy shows no significant relationship under a frozen-decoder setting; and (2) the gap between intrinsic data of the encoder and decoder significantly diminishes compression gains, which is hard to mitigate. Based on these findings, we further present practical guidelines to optimize compression gains.
- Abstract(参考訳): 長期コンテキストシナリオにおけるLarge Language Models (LLM) の展開は、計算の非効率性と重要な情報冗長性によって妨げられる。
近年、これらの課題に対処するためにコンテキスト圧縮が広く採用されているが、既存の研究はモデル側の改善にのみ焦点をあてているが、データ分散自体がコンテキスト圧縮に与える影響は未解明のままである。
このギャップを埋めるために、私たちは、入力データと本質的なデータ(すなわち、モデルの内部事前学習された知識)の2つの次元を含む、データ分散が圧縮品質にどう影響するかを体系的に調査する、データ中心の視点を最初に採用しました。
我々は、オートエンコーダベースのフレームワークを用いて圧縮表現の意味的整合性を評価し、それを体系的に研究する。
実験結果から,(1)エンコーダ測定入力エントロピーは圧縮品質と負の相関を示す一方,(2)デコーダ測定エントロピーは凍結デコーダ設定下では有意な相関を示さず,(2)エンコーダとデコーダの固有データとのギャップは圧縮ゲインを著しく減少させ,緩和が難しい。
これらの結果に基づき,圧縮ゲインを最適化するための実践的ガイドラインをさらに提示する。
関連論文リスト
- DeepCQ: General-Purpose Deep-Surrogate Framework for Lossy Compression Quality Prediction [4.634179787231294]
圧縮品質の損失予測のための汎用的なディープサロゲートフレームワーク(DeepCQ)を提案する。
我々の結果はフレームワークの異常な予測精度を強調しており、ほとんどの設定で予測エラーは10%以下である。
論文 参考訳(メタデータ) (2025-12-24T21:46:17Z) - Test-Time Steering for Lossless Text Compression via Weighted Product of Experts [27.679089540901007]
We propose a novel framework that performing Test-Time Steering through a Weighted Product of Experts (wPoE)。
提案手法は, 予測において, 普遍圧縮モデルと事前学習されたニューラルネットワークモデルとを適応的に組み合わせ, 圧縮速度が最良個々人のモデルと同程度であることを保証する。
自動回帰言語モデルとシームレスに統合され、多様なデータ分散をまたいだテキスト圧縮を強化するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-11-04T16:37:56Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。
我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文 参考訳(メタデータ) (2024-12-21T00:40:58Z) - ODDN: Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks [51.03118447290247]
オープンワールドデータアグリゲーション(ODA)と圧縮・ディスカード勾配補正(CGC)を組み合わせたオープンワールドディープフェイク検出ネットワーク(ODDN)を提案する。
細粒度分析と粗粒度分析の両方により,ODAは圧縮試料と原試料の相関関係を効果的に集約する。
CGCは、オンラインソーシャルネットワーク(OSN)における多種多様な圧縮方法のパフォーマンス向上のために、圧縮・ディスカード勾配補正を組み込んだ。
論文 参考訳(メタデータ) (2024-10-24T12:32:22Z) - Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。
本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。
SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文 参考訳(メタデータ) (2024-09-17T14:34:11Z) - Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。
本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T07:48:00Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Neural Distributed Source Coding [59.630059301226474]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。
提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。