論文の概要: Mixing Times of Glauber Dynamics on Masked Language Models
- arxiv url: http://arxiv.org/abs/2605.16378v1
- Date: Mon, 11 May 2026 00:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.306022
- Title: Mixing Times of Glauber Dynamics on Masked Language Models
- Title(参考訳): マスク言語モデルにおけるグラウバーダイナミクスの混合時間
- Authors: Suvadip Sana, Sami Wolf, Neer Mehta, Alina Shah, Aitzaz Shaikh, Janna Goodman, Lionel Levine,
- Abstract要約: Masked Language Model (MLM) はトークン上の局所条件を定義するが、シーケンス上の一貫した関節分布に対応しない。
このような条件が生成に反復的に使用されるとき、大域的な分布行動はどのように引き起こされるのか?
離散空間トークン列上のグラウバー力学マルコフ連鎖として反復マスクトケンをモデル化することでこの問題に対処する。
- 参考スコア(独自算出の注目度): 0.25798785709198746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked language models (MLMs) define local conditional distributions over tokens but do not, in general, correspond to any consistent joint distribution over sequences. This raises a fundamental question: what global distributional behavior is induced when such conditionals are used iteratively for generation? We address this question by modeling iterative masked-token resampling as a Glauber dynamics Markov chain on the discrete space of token sequences. We first show that MLM conditionals are intrinsically incompatible: we introduce a rectangle test that certifies this incompatibility and empirically verify its prevalence across modern MLMs. We then provide a theoretical analysis of the induced Markov chain. Under bounded cross-token influence, we establish a high-temperature contraction result implying $O(n\log n)$ mixing time where $n$ is the sequence length. In contrast, we prove that under a uniform local margin condition, the chain exhibits metastability, with exponentially slow escape from semantic basins at low temperatures. Empirically, we demonstrate a phase transition in mixing behavior as a function of temperature and sequence length, consistent with the theoretical predictions. We further characterize the induced stationary behavior through semantic trajectories, identifying persistent structures such as long-lived traps and recurrent semantic basins, with political content serving as a measurable case study.
- Abstract(参考訳): マスケッド言語モデル(MLM)はトークン上の局所的な条件分布を定義するが、一般に、シーケンス上の任意の一貫した関節分布に対応しない。
このような条件が生成に反復的に使用されるとき、大域的な分布行動はどのように引き起こされるのか?
トークン列の離散空間上のグラウバー動的マルコフ連鎖として反復マスクトケン再サンプリングをモデル化することでこの問題に対処する。
我々はまず,MLM条件が本質的に不整合であることを示し,この不整合性を証明した矩形試験を導入し,現代のMLMにおけるその妥当性を実証的に検証した。
次に、誘導マルコフ鎖の理論解析を行う。
有界クロストークンの影響下では、$O(n\log n)$混合時間が$n$がシーケンス長であることを示す高温収縮結果を確立する。
対照的に、均一な局所境界条件下では、この鎖は転移性を示し、低温ではセマンティック盆地からの脱出が指数的に遅くなる。
実験では,温度とシーケンス長の関数として混合挙動の相転移を理論的予測と整合して示す。
本研究は,長期トラップや連続的なセマンティック盆地などの永続的な構造を,政治的内容が測定可能なケーススタディとして機能し,意味的軌跡を通じて誘導された定常行動の特徴付けを行う。
関連論文リスト
- GeoFlowVLM: Geometry-Aware Joint Uncertainty for Frozen Vision-Language Embedding [3.0708725114491293]
ペア化された$ell$-normalized dual-encoder VLM の結合分布を学習するポストホックアダプタとして textbfGeoFlowVLM を提案する。
整合性の結果, 人口制限下では, トレーニングされたネットワークは, 接合流と両モード条件流を露呈することがわかった。
この単一モデルから2つの量を得る:Fano型境界による決定論的解釈でアレター的曖昧さを定量化する条件付き検索エントロピーと、関節NLLの正確な連鎖ルール分解によって正当化される限界特異性スコアである。
論文 参考訳(メタデータ) (2026-05-13T11:12:18Z) - Stochastic Scaling Limits and Synchronization by Noise in Deep Transformer Models [6.60601600774899]
MLP(Multi-Layer Perceptron)ブロックを用いた有限深度有限幅変圧器において,トークンの階層進化の経路収束性を証明する。
また、この極限におけるトークン分布の進化を記述した偏微分方程式を同定し、そのようなトークンの数が大きければカオスの伝播を証明する。
論文 参考訳(メタデータ) (2026-04-29T17:09:05Z) - Entropy-Controlled Flow Matching [0.08460698440162889]
本稿では,グローバルエントロピーレートの予算d/dt H(mu_t) >=-lambdaを強制する連続性方程式パスに対する制約付き変分原理を提案する。
そこで我々は,Lipschitzによる証明型モード被覆と密度フロア保証を取得し,非拘束フローマッチングのための準最適逆例を構築した。
論文 参考訳(メタデータ) (2026-02-25T06:07:01Z) - Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations [49.702772230127465]
有限状態マルコフ鎖を$n$状態と遷移行列$P$で研究する。
すべての非退化モードが実周辺不変部分空間 $mathcalK(P)$ によってキャプチャされ、商空間 $mathbbRn/mathcalK(P) 上の誘導作用素が厳密に収縮し、ユニークな商解が得られることを示す。
論文 参考訳(メタデータ) (2026-01-31T02:57:01Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Contraction and entropy production in continuous-time Sinkhorn dynamics [0.6423239719448169]
以前は非正としか知られていなかったシンクホーン流のエントロピー生成速度を正確に同定する。
この流れは, ターゲット境界面上の可逆マルコフ力学を, オンサーガー勾配流として誘導することを示す。
我々は、Sinkhorn LSIの即時的なユースケースとして、生成モデルを訓練する潜在空間の設計原理と、離散時間アルゴリズムの停止アルゴリズムの2つを挙げる。
論文 参考訳(メタデータ) (2025-10-14T15:32:15Z) - Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - Manifold Trajectories in Next-Token Prediction: From Replicator Dynamics to Softmax Equilibrium [0.0]
大規模言語モデルでの復号化はしばしばスコアリングトークンとソフトマックスによる正規化と表現される。
我々は、このステップの自己完結した幻覚を、確率単純性上の制約付き変分原理として与える。
固定された文脈と温度に対して、次トーケン分布は単純体内部の滑らかな軌道を辿り、ソフトマックス平衡に収束することを示す。
論文 参考訳(メタデータ) (2025-08-28T20:00:22Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。