論文の概要: Language Modeling Is Compression
- arxiv url: http://arxiv.org/abs/2309.10668v2
- Date: Mon, 18 Mar 2024 23:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 00:40:38.424385
- Title: Language Modeling Is Compression
- Title(参考訳): 言語モデリングは圧縮である
- Authors: Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness,
- Abstract要約: 我々は圧縮レンズを通して予測問題を見ることを提唱する。
大規模言語モデルは強力な汎用予測器であることを示す。
また, 予測圧縮等価性により, 任意の圧縮機を用いて条件付き生成モデルを構築することができることを示す。
- 参考スコア(独自算出の注目度): 26.155360376155816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has long been established that predictive models can be transformed into lossless compressors and vice versa. Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors. In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models. We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively. Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model.
- Abstract(参考訳): 予測モデルが損失のない圧縮機に変換できることは、長い間確立されてきた。
ちなみに、近年、機械学習コミュニティは、ますます大きくて強力な自己監督型(言語)モデルのトレーニングに重点を置いている。
これらの大きな言語モデルは印象的な予測能力を示すため、強い圧縮機として十分に配置されている。
本研究では,大規模な(基礎)モデルの圧縮能力を評価するとともに,圧縮レンズを通して予測問題を観測することを提唱する。
大規模言語モデルは強力な汎用予測器であり、圧縮視点は法則、トークン化、文脈内学習のスケーリングに関する新しい洞察を提供することを示す。
例えば、Chinchilla 70Bは、主にテキストで訓練されているが、ImageNetのパッチを43.4%、LibriSpeechのサンプルを16.4%に圧縮し、それぞれPNG(58.5%)やFLAC(30.3%)といったドメイン固有の圧縮機を圧倒している。
最後に、予測圧縮等価性により、任意の圧縮器(gzipなど)を用いて条件付き生成モデルを構築することができることを示す。
関連論文リスト
- ZipNN: Lossless Compression for AI Models [10.111136691015554]
ZipNNはニューラルネットワークに適した無損失圧縮を提供する。
一般的なモデル(例えばLlama 3)では、ZipNNはバニラ圧縮よりも17%以上良いスペース節約を示している。
これらの手法は、Hugging Faceのような大きなモデルハブからダウンロードされたネットワークトラフィックを1ヶ月に1つ以上節約できると見積もっている。
論文 参考訳(メタデータ) (2024-11-07T23:28:23Z) - Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。
提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。
Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文 参考訳(メタデータ) (2024-10-17T21:35:49Z) - Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data [8.475091996107741]
本稿では,事前学習したバニラ変圧器との競合圧縮比が可能なスイートスポットが存在するかを検討する。
テキスト、画像、オーディオデータの165GBの生のバイトシーケンスでモデルのファミリーをトレーニングします。
比較的小さなモデル(つまり数百万のパラメータ)が、標準的な汎用圧縮アルゴリズムより優れていることが分かりました。
論文 参考訳(メタデータ) (2024-10-07T14:32:03Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - Lossless and Near-Lossless Compression for Foundation Models [11.307357041746865]
モデル圧縮性の原因を調査し,モデルに適した圧縮変種を導入し,圧縮性グループに分類する。
我々はこれらの手法がHuggingFaceのような大きなモデルハブからダウンロードされたネットワークトラフィックの1ヶ月あたりExaByte以上を節約できると見積もっている。
論文 参考訳(メタデータ) (2024-04-05T16:52:55Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - Intriguing Properties of Compression on Multilingual Models [17.06142742945346]
微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
論文 参考訳(メタデータ) (2022-11-04T20:28:01Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。