論文の概要: A Markov Categorical Framework for Language Modeling
- arxiv url: http://arxiv.org/abs/2507.19247v3
- Date: Mon, 29 Sep 2025 15:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.130234
- Title: A Markov Categorical Framework for Language Modeling
- Title(参考訳): 言語モデリングのためのマルコフ分類フレームワーク
- Authors: Yifan Zhang,
- Abstract要約: 自己回帰言語モデルは、優れたパフォーマンスを達成するが、内部メカニズム、訓練が表現をどのように形作り、複雑な振る舞いを可能にするかを説明する統一理論は、いまだ解明されていない。
本稿では,マルコフカテゴリーの言語を用いた情報処理段階の合成として,単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。
この研究は、モデルを通して情報がどのように流れ、訓練対象が内部形状をどう形成するかを理解するための強力な新しいレンズを提供する。
- 参考スコア(独自算出の注目度): 9.910562011343009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive language models achieve remarkable performance, yet a unified theory explaining their internal mechanisms, how training shapes their representations, and enables complex behaviors, remains elusive. We introduce a new analytical framework that models the single-step generation process as a composition of information-processing stages using the language of Markov categories. This compositional perspective provides a unified mathematical language to connect three critical aspects of language modeling that are typically studied in isolation: the training objective, the geometry of the learned representation space, and practical model capabilities. First, our framework provides a precise information-theoretic rationale for the success of multi-token prediction methods like speculative decoding, quantifying the information surplus a model's hidden state contains about tokens beyond the immediate next one. Second, we clarify how the standard negative log-likelihood (NLL) objective compels the model to learn not just the next word, but also the data's intrinsic conditional uncertainty, a process we formalize using categorical entropy. Our central result shows that, under a linear-softmax head with bounded features, minimizing NLL induces spectral alignment: the learned representation space aligns with the eigenspectrum of a predictive similarity operator. This work presents a powerful new lens for understanding how information flows through a model and how the training objective shapes its internal geometry.
- Abstract(参考訳): 自己回帰言語モデルは、優れたパフォーマンスを達成するが、内部メカニズム、訓練が表現をどのように形作り、複雑な振る舞いを可能にするかを説明する統一理論は、いまだ解明されていない。
本稿では,マルコフカテゴリーの言語を用いた情報処理段階の合成として,単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。
この構成的観点は、訓練目的、学習された表現空間の幾何学、実用的なモデル能力という、通常独立して研究される言語モデリングの3つの重要な側面を接続するための統一された数学的言語を提供する。
まず、我々のフレームワークは、投機的復号化のようなマルチトークン予測手法の成功に対する正確な情報理論の理論的根拠を提供し、モデルに隠された状態がすぐに次のトークンを超えるトークンを含む余分な情報を定量化する。
第二に、標準的な負の対数類似度(NLL)が、次の単語だけでなく、データ固有の条件の不確実性、カテゴリーエントロピーを用いて形式化するプロセスも、どのようにモデルを補完するかを明らかにする。
我々の中心的な結果は、有界な特徴を持つ線形ソフトマックスヘッドの下で、NLLの最小化はスペクトルアライメントを誘導し、学習された表現空間は予測的類似性演算子の固有スペクトルと整合することを示している。
この研究は、モデルを通して情報がどのように流れ、訓練対象が内部形状をどう形成するかを理解するための強力な新しいレンズを提供する。
関連論文リスト
- Concept-Based Mechanistic Interpretability Using Structured Knowledge Graphs [3.429783703166407]
我々のフレームワークは、内部モデルコンポーネントを通して高レベルのセマンティック属性がどのように出現し、相互作用し、伝播するかを分析することによって、モデル行動のグローバルな分離を可能にします。
重要なイノベーションは、私たちがBAGELと名付けた視覚化プラットフォームです。
私たちのフレームワークはモデルに依存しないスケーラブルで、データセットバイアスの存在下でディープラーニングモデルがどのように一般化(あるいは失敗)するかを深く理解するのに役立ちます。
論文 参考訳(メタデータ) (2025-07-08T09:30:20Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - Hierarchical Insights: Exploiting Structural Similarities for Reliable 3D Semantic Segmentation [4.480310276450028]
本稿では,抽象を通してクラス間の構造的関係を学習する3次元LiDARセマンティックセマンティックセマンティクスモデルのトレーニング戦略を提案する。
これは、階層的マルチラベル分類(HMC)のための学習規則を用いて、これらの関係を暗黙的にモデル化することで達成される。
詳細な分析により、このトレーニング戦略はモデルの信頼性校正を改善するだけでなく、融合、予測、計画といった下流タスクに有用な追加情報を保持することが示される。
論文 参考訳(メタデータ) (2024-04-09T08:49:01Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Constructing Word-Context-Coupled Space Aligned with Associative
Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。
解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。
我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文 参考訳(メタデータ) (2023-05-19T09:26:02Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Principled and Efficient Motif Finding for Structure Learning of Lifted
Graphical Models [5.317624228510748]
構造学習は、ニューロシンボリックAIと統計リレーショナル学習の分野の中心となるAIの中核的な問題である。
昇降型グラフィカルモデルにおける構造モチーフのマイニングのための第一原理的アプローチを提案する。
我々は,最先端構造学習の手法を,精度で最大6%,実行時の最大80%で上回ることを示す。
論文 参考訳(メタデータ) (2023-02-09T12:21:55Z) - Experimental Observations of the Topology of Convolutional Neural
Network Activations [2.4235626091331737]
トポロジカル・データ解析は、複雑な構造のコンパクトでノイズ・ロバストな表現を提供する。
ディープニューラルネットワーク(DNN)は、モデルアーキテクチャによって定義された一連の変換に関連する数百万のパラメータを学習する。
本稿では,画像分類に使用される畳み込みニューラルネットワークの解釈可能性に関する知見を得る目的で,TDAの最先端技術を適用した。
論文 参考訳(メタデータ) (2022-12-01T02:05:44Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Geometric and Topological Inference for Deep Representations of Complex
Networks [13.173307471333619]
我々は、トポロジと表現の幾何学を強調する統計のクラスを提示する。
モデル選択に使用する場合の感度と特異性の観点から,これらの統計値を評価する。
これらの新しい手法により、脳やコンピューター科学者は、脳やモデルによって学習された動的表現変換を可視化することができる。
論文 参考訳(メタデータ) (2022-03-10T17:14:14Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - From Canonical Correlation Analysis to Self-supervised Graph Neural
Networks [99.44881722969046]
本稿では,グラフデータを用いた自己教師付き表現学習のための概念的単純かつ効果的なモデルを提案する。
古典的カノニカル相関解析にインスパイアされた,革新的な特徴レベルの目的を最適化する。
提案手法は、7つの公開グラフデータセット上で競合的に動作する。
論文 参考訳(メタデータ) (2021-06-23T15:55:47Z) - Understanding the Mechanics of SPIGOT: Surrogate Gradients for Latent
Structure Learning [20.506232306308977]
潜在構造モデルは、言語データをモデリングするための強力なツールである。
これらのモデルのエンドツーエンドトレーニングの課題の1つは、ヌル勾配を持つargmax演算である。
下流学習目標を引き上げる角度から潜在構造学習を探索する。
論文 参考訳(メタデータ) (2020-10-05T21:56:00Z) - Interpreting Graph Neural Networks for NLP With Differentiable Edge
Masking [63.49779304362376]
グラフニューラルネットワーク(GNN)は、構造的帰納バイアスをNLPモデルに統合する一般的なアプローチとなっている。
本稿では,不要なエッジを識別するGNNの予測を解釈するポストホック手法を提案する。
モデルの性能を劣化させることなく,多数のエッジを落とせることを示す。
論文 参考訳(メタデータ) (2020-10-01T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。