論文の概要: Learning is Forgetting: LLM Training As Lossy Compression
- arxiv url: http://arxiv.org/abs/2604.07569v1
- Date: Wed, 08 Apr 2026 20:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.544262
- Title: Learning is Forgetting: LLM Training As Lossy Compression
- Title(参考訳): 学習は忘れ去られる:LLMトレーニングは無意味な圧縮として
- Authors: Henry C. Conklin, Tom Hosking, Tan Yi-Chern, Julian Gold, Jonathan D. Cohen, Thomas L. Griffiths, Max Bartolo, Seraphina Goldfarb-Tarrant,
- Abstract要約: 我々は、大きな言語モデル(LLM)は、学習中に目的に関連する情報のみを保持することで学習する、損失のある圧縮の例として最もよく見なされていると論じる。
我々は,次列予測に最適に圧縮されたモデルにおいて,プレトレーニング結果を示し,圧縮に縛られたインフォメーション・ボトルネックにアプローチする。
- 参考スコア(独自算出の注目度): 19.24753945415483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the increasing prevalence of large language models (LLMs), we still have a limited understanding of how their representational spaces are structured. This limits our ability to interpret how and what they learn or relate them to learning in humans. We argue LLMs are best seen as an instance of lossy compression, where over training they learn by retaining only information in their training data relevant to their objective(s). We show pre-training results in models that are optimally compressed for next-sequence prediction, approaching the Information Bottleneck bound on compression. Across an array of open weights models, each compresses differently, likely due to differences in the data and training recipes used. However even across different families of LLMs the optimality of a model's compression, and the information present in it, can predict downstream performance on across a wide array of benchmarks, letting us directly link representational structure to actionable insights about model performance. In the general case the work presented here offers a unified Information-Theoretic framing for how these models learn that is deployable at scale.
- Abstract(参考訳): 大規模言語モデル (LLMs) の普及にもかかわらず、これらの表現空間がどのように構成されているかは限定的に理解されている。
これにより、人間の学習の仕方や学習内容や関連性を理解する能力が制限されます。
LLMは、学習中に目的に関連するトレーニングデータにのみ情報を保持することで学習する、損失のある圧縮の事例として最もよく見られる。
我々は,次列予測に最適に圧縮されたモデルにおいて,プレトレーニング結果を示し,圧縮に縛られたインフォメーション・ボトルネックにアプローチする。
オープンウェイトモデルの配列全体で、それぞれが異なる圧縮を行う。
しかし、LLMの異なるファミリーでさえ、モデルの圧縮の最適性、そしてその中に存在している情報は、幅広いベンチマークで下流のパフォーマンスを予測でき、表現構造を直接リンクして、モデルパフォーマンスに関する実行可能な洞察を得ることができます。
一般的な場合、ここで提示された研究は、これらのモデルがどのようにして大規模にデプロイ可能であるかを学ぶための統合された情報理論の枠組みを提供する。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Compression Laws for Large Language Models [20.62274005080048]
言語モデル(LLM)の圧縮法則を導入する。
我々は、1000ドル以上の実験により、構造化モデル圧縮がLLMに与える影響を実証的に検討した。
以上の結果から, クロスエントロピー損失は圧縮比に比例して2次的に増加することが示唆された。
論文 参考訳(メタデータ) (2025-04-06T03:39:34Z) - How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence [52.9442657690445]
大規模言語モデル(LLM)の成功にはポストトレーニングが不可欠である
学習後効果をよりよく理解するために,4つの視点からベースとポストトレーニング後のLLMを比較した。
論文 参考訳(メタデータ) (2025-04-03T06:30:55Z) - Slamming: Training a Speech Language Model on One GPU in a Day [20.802090523583196]
Slamは,1つの学術GPU上で,高品質な言語モデル(SLM)を24時間でトレーニングするためのレシピだ。
我々は、このトレーニングレシピが、計算コストのごく一部で主要なSLMと同等の計算結果を得られるようにも、うまくスケールできることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-19T17:21:15Z) - Measuring Sample Importance in Data Pruning for Language Models based on Information Entropy [4.079147243688765]
本稿では,情報エントロピーに基づくデータプルーニング手法を提案する。
トレーニングコーパスのサンプルを,その情報性の観点からランク付けすることを提案する。
実験の結果,提案した情報に基づくプルーニングは,様々な言語モデリングや下流タスクを改善することができることがわかった。
論文 参考訳(メタデータ) (2024-06-20T09:09:34Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。