論文の概要: LLMComp: A Language Modeling Paradigm for Error-Bounded Scientific Data Compression
- arxiv url: http://arxiv.org/abs/2510.23632v1
- Date: Fri, 24 Oct 2025 05:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.299304
- Title: LLMComp: A Language Modeling Paradigm for Error-Bounded Scientific Data Compression
- Title(参考訳): LLMComp: 誤り境界を持つ科学データ圧縮のための言語モデリングパラダイム
- Authors: Guozhong Li, Muhannad Alhumaidi, Spiros Skiadopoulos, Panos Kalnis,
- Abstract要約: LLMCOMPは、デコーダのみの大規模言語モデルを利用して科学的データをモデル化する、失われた圧縮パラダイムである。
常に最先端の圧縮機を上回り、厳密な誤差境界の下で最大30%高い圧縮比を達成する。
- 参考スコア(独自算出の注目度): 4.2414540423650795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of high-resolution scientific simulations and observation systems is generating massive spatiotemporal datasets, making efficient, error-bounded compression increasingly important. Meanwhile, decoder-only large language models (LLMs) have demonstrated remarkable capabilities in modeling complex sequential data. In this paper, we propose LLMCOMP, a novel lossy compression paradigm that leverages decoder-only large LLMs to model scientific data. LLMCOMP first quantizes 3D fields into discrete tokens, arranges them via Z-order curves to preserve locality, and applies coverage-guided sampling to enhance training efficiency. An autoregressive transformer is then trained with spatial-temporal embeddings to model token transitions. During compression, the model performs top-k prediction, storing only rank indices and fallback corrections to ensure strict error bounds. Experiments on multiple reanalysis datasets show that LLMCOMP consistently outperforms state-of-the-art compressors, achieving up to 30% higher compression ratios under strict error bounds. These results highlight the potential of LLMs as general-purpose compressors for high-fidelity scientific data.
- Abstract(参考訳): 高解像度の科学シミュレーションと観測システムの急速な成長により、大規模な時空間データセットが生成され、効率よく、エラーバウンド圧縮がますます重要になっている。
一方、デコーダのみの大規模言語モデル(LLM)は複雑なシーケンシャルデータをモデル化する際、顕著な能力を示した。
本稿では,デコーダのみの大規模LLMを利用して科学的データをモデル化する,新しい損失圧縮パラダイム LLMCOMP を提案する。
LLMCOMPはまず3Dフィールドを離散トークンに量子化し、局所性を維持するためにZ次曲線を介してそれらを配置し、トレーニング効率を高めるためにカバレッジ誘導サンプリングを適用する。
自己回帰変換器は、トークン遷移をモデル化するための時空間埋め込みで訓練される。
圧縮中、モデルはトップk予測を実行し、厳密なエラー境界を保証するためにランクインデックスとフォールバック補正のみを格納する。
複数の再解析データセットの実験により、LLMCOMPは一貫して最先端圧縮機より優れており、厳密な誤差境界下では最大30%高い圧縮比を達成することが示された。
これらの結果は、高忠実度科学データのための汎用圧縮機としてのLCMの可能性を強調している。
関連論文リスト
- QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Lossless Compression of Large Language Model-Generated Text via Next-Token Prediction [9.302754209202607]
大規模言語モデル(LLM)は、ドメインにまたがってデプロイされ、利用され続けている。
LLM生成データの圧縮は、従来の人間や機械生成のコンテンツと比較して、独特な課題を示す。
また,LLMに基づく予測手法は,Gzipで達成した3倍の圧縮速度をはるかに上回る20倍の圧縮速度を達成することを示す。
論文 参考訳(メタデータ) (2025-05-07T17:42:35Z) - Foundation Model for Lossy Compression of Spatiotemporal Scientific Data [11.494915987840876]
損失のある科学的データ圧縮のための基礎モデル(FM)を提案する。
可変オートエンコーダ(E)と超高次構造と超高分解能(SR)モジュールを組み合わせる。
論文 参考訳(メタデータ) (2024-12-22T22:57:08Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - NeurLZ: An Online Neural Learning-Based Method to Enhance Scientific Lossy Compression [34.30562110131907]
NeurLZは、オンライン学習、クロスフィールド学習、堅牢なエラー制御を統合することで、損失圧縮を強化するように設計されたニューラルネットワークである。
最初の5つの学習エポックの間、NeurLZは89%のビットレート削減を実現し、さらなる最適化により、同等の歪みで最大94%の削減が得られる。
論文 参考訳(メタデータ) (2024-09-09T16:48:09Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。