論文の概要: Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs
- arxiv url: http://arxiv.org/abs/2511.01202v1
- Date: Mon, 03 Nov 2025 03:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.110963
- Title: Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs
- Title(参考訳): TKENを忘れる - LLMのセマンティック情報理論を目指して-
- Authors: Bo Bai,
- Abstract要約: 大規模言語モデル (LLM) は多くの実世界のアプリケーションで顕著な能力を示している。
LLMのブラックボックスを理論的観点からオープンする方法は、重要な課題となっている。
本稿では, 速度歪み関数, 指向情報, およびグランガー因果性の理論を出発点とする。
- 参考スコア(独自算出の注目度): 7.26032677670473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in numerous real-world applications. While the vast majority of research conducted from an experimental perspective is progressing rapidly, it demands substantial computational power, data, and other resources. Therefore, how to open the black-box of LLMs from a theoretical standpoint has become a critical challenge. This paper takes the theory of rate-distortion function, directed information, and Granger causality as its starting point to investigate the information-theoretic principles behind LLMs, leading to the development of semantic information theory for LLMs, where the fundamental unit is token, rather than bits that lacks any semantic meaning. By defining the probabilistic model of LLMs, we discuss structure-agnostic information-theoretic measures, such as the directed rate-distortion function in pre-training, the directed rate-reward function in post-training, and the semantic information flow in inference phase. This paper also delves deeply into the theory of token-level semantic embedding and the information-theoretically optimal vectorization method. Thereafter, we propose a general definition of autoregression LLM, where the Transformer architecture and its performance such as ELBO, generalization error bound, memory capacity, and semantic information measures can be derived theoretically. Other architectures, such as Mamba/Mamba2 and LLaDA, are also discussed in our framework. Consequently, this paper provides a theoretical framework for understanding LLMs from the perspective of semantic information theory, which also offers the necessary theoretical tools for further in-depth research.
- Abstract(参考訳): 大規模言語モデル (LLM) は多くの実世界のアプリケーションで顕著な能力を示している。
実験的な観点から行われた研究の大部分は急速に進歩しているが、かなりの計算能力、データ、その他の資源を必要としている。
そのため、理論的な観点からLLMのブラックボックスをどう開くかが重要な課題となっている。
本稿では, LLMの背景にある情報理論の原理を解明するための出発点として, レート歪み関数, 指示情報, およびグランガー因果性の理論を取り上げ, 基本的な単位がトークンであり, 意味的意味を持たないビットではなく, LLMの意味情報理論の開発に繋がる。
LLMの確率モデルを定義することにより,事前学習における有向率歪関数,後学習における有向率逆関数,推論フェーズにおける意味情報フローなど,構造に依存しない情報理論を議論する。
本稿では,トークンレベルのセマンティック埋め込みの理論と情報理論の最適ベクトル化法についても深く研究する。
その後,トランスフォーマーアーキテクチャとその性能,例えばELBO,一般化エラーバウンド,メモリ容量,意味情報測定を理論的に導出できる自己回帰LDMの一般定義を提案する。
Mamba/Mamba2やLLaDAといった他のアーキテクチャについても,私たちのフレームワークで論じています。
そこで本研究では,LLMを意味情報理論の観点から理解するための理論的枠組みを提供するとともに,さらなる深層研究に必要な理論ツールを提供する。
関連論文リスト
- Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Large Language Models as Computable Approximations to Solomonoff Induction [11.811838796672369]
我々は,大規模言語モデル (LLM) とアルゴリズム情報理論 (AIT) の間の最初の公式な接続を確立する。
我々はAITを活用し、文脈内学習、少数ショット学習、スケーリング法則の統一的な理論的説明を提供する。
我々の枠組みは理論的基礎と実践的LLM行動のギャップを埋め、将来のモデル開発に説明力と実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-21T17:35:08Z) - Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws [5.685201910521295]
我々は、増大するモデルとデータスケールにまたがって、どのようにしてLarge Language Modelsが情報を取得し、保存するかの詳細なビューを提供する。
この理論的な視点と、Heapの法則やZipfの法則に触発された自然な仮定に触発され、単純化されながら代表的である階層型データ生成フレームワークを導入する。
ベイジアン・セッティングの下では、このモデル内の予測と圧縮が自然に多様な学習とスケーリングの行動を引き起こすことが示される。
論文 参考訳(メタデータ) (2025-04-13T14:31:52Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph [57.382255728234064]
大きな言語モデル(LLM)は、テキスト理解とゼロショット推論において素晴らしい能力を持っている。
知識グラフ(KG)は、LLMの推論プロセスに対して、リッチで信頼性の高いコンテキスト情報を提供する。
我々は、KGQA(LightPROF)のための新しい軽量で効率的なPrompt Learning-ReasOning Frameworkを提案する。
論文 参考訳(メタデータ) (2025-04-04T03:03:47Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。