論文の概要: Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws
- arxiv url: http://arxiv.org/abs/2504.09597v2
- Date: Thu, 17 Apr 2025 16:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 10:52:37.376230
- Title: Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws
- Title(参考訳): 圧縮によるLCM行動の理解:データ生成、知識獲得、スケーリング法則
- Authors: Zhixuan Pan, Shaowen Wang, Jian Li,
- Abstract要約: 我々は、増大するモデルとデータスケールにまたがって、どのようにしてLarge Language Modelsが情報を取得し、保存するかの詳細なビューを提供する。
この理論的な視点と、Heapの法則やZipfの法則に触発された自然な仮定に触発され、単純化されながら代表的である階層型データ生成フレームワークを導入する。
ベイジアン・セッティングの下では、このモデル内の予測と圧縮が自然に多様な学習とスケーリングの行動を引き起こすことが示される。
- 参考スコア(独自算出の注目度): 5.685201910521295
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous tasks, yet principled explanations for their underlying mechanisms and several phenomena, such as scaling laws, hallucinations, and related behaviors, remain elusive. In this work, we revisit the classical relationship between compression and prediction, grounded in Kolmogorov complexity and Shannon information theory, to provide deeper insights into LLM behaviors. By leveraging the Kolmogorov Structure Function and interpreting LLM compression as a two-part coding process, we offer a detailed view of how LLMs acquire and store information across increasing model and data scales -- from pervasive syntactic patterns to progressively rarer knowledge elements. Motivated by this theoretical perspective and natural assumptions inspired by Heap's and Zipf's laws, we introduce a simplified yet representative hierarchical data-generation framework called the Syntax-Knowledge model. Under the Bayesian setting, we show that prediction and compression within this model naturally lead to diverse learning and scaling behaviors of LLMs. In particular, our theoretical analysis offers intuitive and principled explanations for both data and model scaling laws, the dynamics of knowledge acquisition during training and fine-tuning, factual knowledge hallucinations in LLMs. The experimental results validate our theoretical predictions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な能力を示してきたが、その基盤となるメカニズムや、拡張法則、幻覚、関連する行動といったいくつかの現象の説明は、いまだ解明されていない。
本研究では、コルモゴロフ複雑性とシャノン情報理論に基づく圧縮と予測の古典的関係を再考し、LLMの挙動について深い洞察を与える。
Kolmogorov 構造関数を活用して LLM 圧縮を2部符号化プロセスとして解釈することにより,LLM が広範に普及する構文パターンから,より稀な知識要素に至るまで,拡大するモデルやデータスケールにまたがる情報を取得し,保存する方法について,より詳細なビューを提供する。
この理論的な視点と、Heapの法則やZipfの法則に触発された自然な仮定に触発された我々は、構文知識モデル(Syntax-Knowledge model)と呼ばれるシンプルだが代表的な階層型データ生成フレームワークを導入する。
ベイジアン・セッティングの下では、このモデルにおける予測と圧縮が自然にLLMの多様な学習とスケーリング行動を引き起こすことを示す。
特に、我々の理論的分析は、データとモデルスケーリング法則の両方について直感的で原則化された説明を提供し、学習中の知識獲得のダイナミクスとLLMにおけるファインチューニング、事実的知識幻覚を提供する。
実験結果は,我々の理論予測を検証した。
関連論文リスト
- Thinking with Knowledge Graphs: Enhancing LLM Reasoning Through Structured Data [0.9284740716447338]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。
近年の研究では、知識グラフ(KG)を活用してLLM性能を向上させるという有望な成果が示されている。
我々は、KG構造と意味論をLLM表現に密に統合する様々な手法を開発した。
論文 参考訳(メタデータ) (2024-12-14T02:51:47Z) - Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。
以上の結果とLLMで観察された病理行動との関連性を検討した。
最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文 参考訳(メタデータ) (2024-10-03T17:45:31Z) - Exploring Concept Depth: How Large Language Models Acquire Knowledge and Concept at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。
概念深さ」の概念を導入し、より複雑な概念が一般的により深い層で得られることを示唆する。
論文 参考訳(メタデータ) (2024-04-10T14:56:40Z) - Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph [15.129079475322637]
この研究は、大規模言語モデルが文レベルのクレーム検証のために内部的に表現する事実情報を明らかにする。
本稿では,トークン表現に埋め込まれた事実知識をベクトル空間から基底述語集合にデコードするエンド・ツー・エンドのフレームワークを提案する。
本フレームワークでは,推論中にトークン表現を変更するベクトルレベル手法であるアクティベーションパッチを用いて,符号化された知識を抽出する。
論文 参考訳(メタデータ) (2024-04-04T17:45:59Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。