論文の概要: A Markov Categorical Framework for Language Modeling
- arxiv url: http://arxiv.org/abs/2507.19247v2
- Date: Sun, 31 Aug 2025 02:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.543149
- Title: A Markov Categorical Framework for Language Modeling
- Title(参考訳): 言語モデリングのためのマルコフ分類フレームワーク
- Authors: Yifan Zhang,
- Abstract要約: 本稿では,情報処理段階の合成として単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。
標準負の対数類似度(NLL)が学習モデルをどう補完するかを説明する。
一般的なモデルアーキテクチャでは、NLLトレーニング関数がスペクトルコントラスト学習の暗黙的な形式であることを示す。
- 参考スコア(独自算出の注目度): 9.910562011343009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive language models achieve remarkable performance, yet a unified theory explaining their internal mechanisms--how training shapes their representations and enables complex behaviors--remains elusive. We introduce a new analytical framework that models the single-step generation process as a composition of information-processing stages using the language of Markov categories. This compositional perspective provides a unified mathematical language to connect three critical aspects of language modeling that are typically studied in isolation: the training objective, the geometry of the learned representation space, and practical model capabilities. First, our framework provides a precise information-theoretic rationale for the success of multi-token prediction methods like speculative decoding, quantifying the "information surplus" a model's hidden state contains about tokens beyond the immediate next one. Second, we clarify how the standard negative log-likelihood (NLL) objective compels the model to learn not just the next word, but also the data's intrinsic conditional uncertainty, a process we formalize using categorical entropy. Our central result reveals that NLL training functions as an implicit form of spectral contrastive learning. We prove that, for common model architectures, this simple predictive objective forces the model to sculpt a geometrically structured representation space, implicitly aligning representations with the eigenspectrum of a "predictive similarity" operator. This work offers a powerful new lens to understand how information flows through a model and how the training objective shapes its internal geometry, thereby bridging the gap between learning theory and the practical success of large language models.
- Abstract(参考訳): 自己回帰言語モデルは優れたパフォーマンスを達成するが、その内部メカニズムを説明する統一理論である。
本稿では,マルコフカテゴリーの言語を用いた情報処理段階の合成として,単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。
この構成的観点は、訓練目的、学習された表現空間の幾何学、実用的なモデル能力という、通常独立して研究される言語モデリングの3つの重要な側面を接続するための統一された数学的言語を提供する。
まず、我々のフレームワークは、投機的復号化のようなマルチトークン予測手法の成功に対する正確な情報理論の理論的根拠を提供し、モデルの隠れた状態がすぐに次のトークンを超えるトークンを含む「情報余剰」を定量化する。
第二に、標準的な負の対数類似度(NLL)が、次の単語だけでなく、データ固有の条件の不確実性、カテゴリーエントロピーを用いて形式化するプロセスも、どのようにモデルを補完するかを明らかにする。
我々の中心的な結果は、NLLトレーニングがスペクトルコントラスト学習の暗黙的な形態として機能することを明らかにする。
一般的なモデルアーキテクチャの場合、この単純な予測対象は、モデルに幾何学的に構造化された表現空間を彫刻させ、表現を「予測類似性」作用素の固有スペクトルと暗黙的に整合させることを証明している。
この研究は、学習理論と大規模言語モデルの実践的成功のギャップを埋めるため、モデルを通して情報がどのように流れ、訓練対象が内部形状をどう形成するかを理解するための強力な新しいレンズを提供する。
関連論文リスト
- Hierarchical Insights: Exploiting Structural Similarities for Reliable 3D Semantic Segmentation [4.480310276450028]
本稿では,抽象を通してクラス間の構造的関係を学習する3次元LiDARセマンティックセマンティックセマンティクスモデルのトレーニング戦略を提案する。
これは、階層的マルチラベル分類(HMC)のための学習規則を用いて、これらの関係を暗黙的にモデル化することで達成される。
詳細な分析により、このトレーニング戦略はモデルの信頼性校正を改善するだけでなく、融合、予測、計画といった下流タスクに有用な追加情報を保持することが示される。
論文 参考訳(メタデータ) (2024-04-09T08:49:01Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Principled and Efficient Motif Finding for Structure Learning of Lifted
Graphical Models [5.317624228510748]
構造学習は、ニューロシンボリックAIと統計リレーショナル学習の分野の中心となるAIの中核的な問題である。
昇降型グラフィカルモデルにおける構造モチーフのマイニングのための第一原理的アプローチを提案する。
我々は,最先端構造学習の手法を,精度で最大6%,実行時の最大80%で上回ることを示す。
論文 参考訳(メタデータ) (2023-02-09T12:21:55Z) - Experimental Observations of the Topology of Convolutional Neural
Network Activations [2.4235626091331737]
トポロジカル・データ解析は、複雑な構造のコンパクトでノイズ・ロバストな表現を提供する。
ディープニューラルネットワーク(DNN)は、モデルアーキテクチャによって定義された一連の変換に関連する数百万のパラメータを学習する。
本稿では,画像分類に使用される畳み込みニューラルネットワークの解釈可能性に関する知見を得る目的で,TDAの最先端技術を適用した。
論文 参考訳(メタデータ) (2022-12-01T02:05:44Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - From Canonical Correlation Analysis to Self-supervised Graph Neural
Networks [99.44881722969046]
本稿では,グラフデータを用いた自己教師付き表現学習のための概念的単純かつ効果的なモデルを提案する。
古典的カノニカル相関解析にインスパイアされた,革新的な特徴レベルの目的を最適化する。
提案手法は、7つの公開グラフデータセット上で競合的に動作する。
論文 参考訳(メタデータ) (2021-06-23T15:55:47Z) - Understanding the Mechanics of SPIGOT: Surrogate Gradients for Latent
Structure Learning [20.506232306308977]
潜在構造モデルは、言語データをモデリングするための強力なツールである。
これらのモデルのエンドツーエンドトレーニングの課題の1つは、ヌル勾配を持つargmax演算である。
下流学習目標を引き上げる角度から潜在構造学習を探索する。
論文 参考訳(メタデータ) (2020-10-05T21:56:00Z) - Interpreting Graph Neural Networks for NLP With Differentiable Edge
Masking [63.49779304362376]
グラフニューラルネットワーク(GNN)は、構造的帰納バイアスをNLPモデルに統合する一般的なアプローチとなっている。
本稿では,不要なエッジを識別するGNNの予測を解釈するポストホック手法を提案する。
モデルの性能を劣化させることなく,多数のエッジを落とせることを示す。
論文 参考訳(メタデータ) (2020-10-01T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。