Fugu-MT 論文翻訳(概要): Language Modeling Is Compression

論文の概要: Language Modeling Is Compression

arxiv url: http://arxiv.org/abs/2309.10668v2
Date: Mon, 18 Mar 2024 23:15:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 00:40:38.424385
Title: Language Modeling Is Compression
Title（参考訳）: 言語モデリングは圧縮である
Authors: Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness,
Abstract要約: 我々は圧縮レンズを通して予測問題を見ることを提唱する。大規模言語モデルは強力な汎用予測器であることを示す。また, 予測圧縮等価性により, 任意の圧縮機を用いて条件付き生成モデルを構築することができることを示す。
参考スコア（独自算出の注目度）: 26.155360376155816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It has long been established that predictive models can be transformed into lossless compressors and vice versa. Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors. In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models. We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively. Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model.
Abstract（参考訳）: 予測モデルが損失のない圧縮機に変換できることは、長い間確立されてきた。ちなみに、近年、機械学習コミュニティは、ますます大きくて強力な自己監督型(言語)モデルのトレーニングに重点を置いている。これらの大きな言語モデルは印象的な予測能力を示すため、強い圧縮機として十分に配置されている。本研究では,大規模な(基礎)モデルの圧縮能力を評価するとともに,圧縮レンズを通して予測問題を観測することを提唱する。大規模言語モデルは強力な汎用予測器であり、圧縮視点は法則、トークン化、文脈内学習のスケーリングに関する新しい洞察を提供することを示す。例えば、Chinchilla 70Bは、主にテキストで訓練されているが、ImageNetのパッチを43.4%、LibriSpeechのサンプルを16.4%に圧縮し、それぞれPNG(58.5%)やFLAC(30.3%)といったドメイン固有の圧縮機を圧倒している。最後に、予測圧縮等価性により、任意の圧縮器(gzipなど)を用いて条件付き生成モデルを構築することができることを示す。

関連論文リスト

Proxy Compression for Language Modeling [58.904023114033954]
プロキシ圧縮は、圧縮された入力の効率性を維持する代替のトレーニングスキームである。コード言語モデリングの実験では、プロキシ圧縮がトレーニング効率を大幅に向上することを示した。モデルスケールが大きくなるにつれて、プロキシトレーニングされたモデルは最終的に一致するか、あるいは競合するトークン化アルゴリズムのアプローチになる。
論文参考訳（メタデータ） (2026-02-04T07:36:46Z)
Test-Time Steering for Lossless Text Compression via Weighted Product of Experts [27.679089540901007]
We propose a novel framework that performing Test-Time Steering through a Weighted Product of Experts (wPoE)。提案手法は, 予測において, 普遍圧縮モデルと事前学習されたニューラルネットワークモデルとを適応的に組み合わせ, 圧縮速度が最良個々人のモデルと同程度であることを保証する。自動回帰言語モデルとシームレスに統合され、多様なデータ分散をまたいだテキスト圧縮を強化するための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-11-04T16:37:56Z)
Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文参考訳（メタデータ） (2025-10-17T16:57:42Z)
Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文参考訳（メタデータ） (2025-06-02T16:52:51Z)
NoWag: A Unified Framework for Shape Preserving Compression of Large Language Models [63.271278137295006]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示す。 LLMは膨大な計算量とメモリ需要に悩まされており、リソース制約のある環境への展開を制限している。 Normalized Weight and Activation Guided Compression (Normalized Weight and Activation Guided Compression) をゼロショット形状保存圧縮アルゴリズムの統一フレームワークとして提案する。
論文参考訳（メタデータ） (2025-04-20T11:00:29Z)
ZipNN: Lossless Compression for AI Models [10.111136691015554]
ZipNNはニューラルネットワークに適した無損失圧縮を提供する。一般的なモデル(例えばLlama 3)では、ZipNNはバニラ圧縮よりも17%以上良いスペース節約を示している。これらの手法は、Hugging Faceのような大きなモデルハブからダウンロードされたネットワークトラフィックを1ヶ月に1つ以上節約できると見積もっている。
論文参考訳（メタデータ） (2024-11-07T23:28:23Z)
Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。 Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文参考訳（メタデータ） (2024-10-17T21:35:49Z)
Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data [8.475091996107741]
本稿では,事前学習したバニラ変圧器との競合圧縮比が可能なスイートスポットが存在するかを検討する。テキスト、画像、オーディオデータの165GBの生のバイトシーケンスでモデルのファミリーをトレーニングします。比較的小さなモデル(つまり数百万のパラメータ)が、標準的な汎用圧縮アルゴリズムより優れていることが分かりました。
論文参考訳（メタデータ） (2024-10-07T14:32:03Z)
Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2024-06-20T10:23:38Z)
Lossless and Near-Lossless Compression for Foundation Models [11.307357041746865]
モデル圧縮性の原因を調査し,モデルに適した圧縮変種を導入し,圧縮性グループに分類する。我々はこれらの手法がHuggingFaceのような大きなモデルハブからダウンロードされたネットワークトラフィックの1ヶ月あたりExaByte以上を節約できると見積もっている。
論文参考訳（メタデータ） (2024-04-05T16:52:55Z)
A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たすモデル圧縮法は、Transformerのメモリと計算コストを削減する。この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文参考訳（メタデータ） (2024-02-05T12:16:28Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文参考訳（メタデータ） (2023-06-11T00:13:00Z)
Intriguing Properties of Compression on Multilingual Models [17.06142742945346]
微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
論文参考訳（メタデータ） (2022-11-04T20:28:01Z)
What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文参考訳（メタデータ） (2022-05-22T13:54:44Z)
What do Compressed Large Language Models Forget? Robustness Challenges in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文参考訳（メタデータ） (2021-10-16T00:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。