論文の概要: Language Modeling Is Compression
- arxiv url: http://arxiv.org/abs/2309.10668v1
- Date: Tue, 19 Sep 2023 14:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:04:31.537288
- Title: Language Modeling Is Compression
- Title(参考訳): 言語モデリングは圧縮です
- Authors: Gr\'egoire Del\'etang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot
Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang,
Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness
- Abstract要約: 我々は圧縮レンズを通して予測問題を見ることを提唱する。
大規模言語モデルは強力な汎用予測器であることを示す。
また, 予測圧縮等価性により, 任意の圧縮機を用いて条件付き生成モデルを構築することができることを示す。
- 参考スコア(独自算出の注目度): 26.03540319706643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has long been established that predictive models can be transformed into
lossless compressors and vice versa. Incidentally, in recent years, the machine
learning community has focused on training increasingly large and powerful
self-supervised (language) models. Since these large language models exhibit
impressive predictive capabilities, they are well-positioned to be strong
compressors. In this work, we advocate for viewing the prediction problem
through the lens of compression and evaluate the compression capabilities of
large (foundation) models. We show that large language models are powerful
general-purpose predictors and that the compression viewpoint provides novel
insights into scaling laws, tokenization, and in-context learning. For example,
Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to
43.4% and LibriSpeech samples to 16.4% of their raw size, beating
domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively.
Finally, we show that the prediction-compression equivalence allows us to use
any compressor (like gzip) to build a conditional generative model.
- Abstract(参考訳): 予測モデルが損失のない圧縮機に変換できることは、長い間確立されてきた。
ちなみに、機械学習コミュニティは近年、ますます大きくて強力な自己監督型(言語)モデルのトレーニングに注力している。
これらの大きな言語モデルは印象的な予測能力を示すため、強い圧縮機として配置されている。
本研究では,圧縮レンズを通して予測問題を見ることを提案し,大規模(基礎的)モデルの圧縮能力を評価する。
大規模言語モデルは強力な汎用予測器であり、圧縮視点は法則、トークン化、文脈内学習のスケーリングに関する新しい洞察を提供する。
例えば、chinchilla 70bは、主にテキストを訓練しながら、imagenetのパッチを43.4%、librispeechのサンプルを16.4%に圧縮し、それぞれpng (58.5%) やflac (30.3%) のようなドメイン固有の圧縮機を打ち負かす。
最後に, 予測圧縮等価性により, 任意の圧縮機(gzipなど)を用いて条件付き生成モデルを構築することができることを示した。
関連論文リスト
- ZipNN: Lossless Compression for AI Models [10.111136691015554]
ZipNNはニューラルネットワークに適した無損失圧縮を提供する。
一般的なモデル(例えばLlama 3)では、ZipNNはバニラ圧縮よりも17%以上良いスペース節約を示している。
これらの手法は、Hugging Faceのような大きなモデルハブからダウンロードされたネットワークトラフィックを1ヶ月に1つ以上節約できると見積もっている。
論文 参考訳(メタデータ) (2024-11-07T23:28:23Z) - Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。
提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。
Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文 参考訳(メタデータ) (2024-10-17T21:35:49Z) - Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data [8.475091996107741]
本稿では,事前学習したバニラ変圧器との競合圧縮比が可能なスイートスポットが存在するかを検討する。
テキスト、画像、オーディオデータの165GBの生のバイトシーケンスでモデルのファミリーをトレーニングします。
比較的小さなモデル(つまり数百万のパラメータ)が、標準的な汎用圧縮アルゴリズムより優れていることが分かりました。
論文 参考訳(メタデータ) (2024-10-07T14:32:03Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - Lossless and Near-Lossless Compression for Foundation Models [11.307357041746865]
モデル圧縮性の原因を調査し,モデルに適した圧縮変種を導入し,圧縮性グループに分類する。
我々はこれらの手法がHuggingFaceのような大きなモデルハブからダウンロードされたネットワークトラフィックの1ヶ月あたりExaByte以上を節約できると見積もっている。
論文 参考訳(メタデータ) (2024-04-05T16:52:55Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - Intriguing Properties of Compression on Multilingual Models [17.06142742945346]
微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
論文 参考訳(メタデータ) (2022-11-04T20:28:01Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。