論文の概要: TUBE: Tangent Upper Bound on Evidence for Discrete Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.24292v1
- Date: Fri, 22 May 2026 23:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.848914
- Title: TUBE: Tangent Upper Bound on Evidence for Discrete Diffusion Language Models
- Title(参考訳): TUBE:離散拡散言語モデルのエビデンスに基づくタンジェント・アッパーバウンド
- Authors: Arseny Ivanov, Sergei Kholkin, Vladislav Gromadskii, Grigoriy Ksenofontov, Ivan Oseledets, Alexander Korotin,
- Abstract要約: 本稿では,無バイアスモンテカルロ推定器を付加した対数的上界であるTangent Upper Bound on Evidence (TUBE)を紹介する。
私たちのTUBEは、マスク拡散モデル(MDM)、任意の順序ARM(AO-ARM)、両方のバリエーションのブロックを含む、潜在変数モデルにまたがる。
- 参考スコア(独自算出の注目度): 47.0940918286083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Log-likelihood is a standard metric for evaluating generative models. Unfortunately, in contrast to autoregressive models (ARMs), discrete diffusion models generally do not admit exact computation of this quantity. Existing evaluations, therefore, rely on the evidence lower bound (ELBO), leaving unclear how much higher the true value may be. We address this by introducing the Tangent Upper Bound on Evidence (TUBE), a variational upper bound on log-likelihood that admits an unbiased Monte Carlo estimator. Our TUBE extends across latent-variable models, including masked diffusion models (MDMs), any-order ARMs (AO-ARMs), and block variants of both. Applied to block MDMs and block AO-ARMs, TUBE reveals our key empirical finding that these models lie strictly below the exact ARM baseline, showing that ARMs still dominate in likelihood.
- Abstract(参考訳): Log-likelihoodは、生成モデルを評価するための標準メトリックである。
残念なことに、自己回帰モデル(ARM)とは対照的に、離散拡散モデルは一般にこの量の正確な計算を認めない。
したがって、既存の評価はエビデンス・ロー・バウンド(ELBO)に依存しており、真の価値がどれくらい高いかは明らかでない。
この問題に対処するために、無バイアスモンテカルロ推定器を持つ対数線上の変分上界であるTangent Upper Bound on Evidence (TUBE)を導入する。
私たちのTUBEは、マスク拡散モデル(MDM)、任意の順序ARM(AO-ARM)、両方のバリエーションのブロックを含む、潜在変数モデルにまたがる。
MDMをブロックし、AO-ARMをブロックするために、TUBEは、これらのモデルがARMベースラインの真下にあるという、私たちの重要な実証的な発見を明らかにします。
関連論文リスト
- The Efficiency Gap in Byte Modeling [101.18202046105718]
2つの代替パラダイムは、サブワードトークン化と自己回帰順序付けの使用に挑戦している。
これらの構造的先行性を取り除くことは、計算コストを著しく削減することを示します。
この結果から, 将来のモジュラリティ非依存設計は, 拡張軌道を維持するために, 代替構造バイアスを組み込まなければならないことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T03:03:30Z) - Autoregressive Language Models are Secretly Energy-Based Models: Insights into the Lookahead Capabilities of Next-Token Prediction [13.764740803730803]
自己回帰モデル(ARM)とエネルギーベースモデル(EBM)の統一ビューを提供する。
ARMの教師付き学習とEMMの等価性を導出する。
本結果は,次世代の予測パラダイムをベースとしつつも,ARMの今後の計画能力に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-12-17T17:14:26Z) - Score-based Membership Inference on Diffusion Models [3.742113529511043]
拡散モデルに対するメンバーシップ推論攻撃(MIA)は、プライバシーの懸念が強まっている。
本稿では,拡散モデルが近似することを学習する予測ノイズベクトルに着目し,スコアベースMIAの理論的,実証的研究を行う。
提案手法は, トレーニングセットに近づき, メンバシップが明らかになるような, 近隣のトレーニングサンプルのカーネル重み付き局所平均に対して, 期待されたデノイザ出力が向けられることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:28:55Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data [55.54827581105283]
本研究では, 吸収拡散の具体的なスコアを, クリーンデータの条件付き確率として表すことができることを示す。
時間に依存しない条件付き確率を特徴付ける時間条件のない専用拡散モデルを提案する。
5つのゼロショット言語モデルベンチマークにおける拡散モデル間のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T04:22:11Z) - Induced Model Matching: Restricted Models Help Train Full-Featured Models [1.4963011898406866]
フル機能の(大きな)モデルをトレーニングする際に、制限された機能を使用した非常に正確な(小さな)予測モデルが利用可能であるシナリオを検討する。
制限されたモデルは、フルモデルにどのように役立つのか?
誘導モデルマッチング(IMM)と呼ばれる手法を導入する。
IMMは、大きなモデルのコンテキスト制限された、あるいは誘導されたバージョンと制限されたモデルとを一致させる。
論文 参考訳(メタデータ) (2024-02-19T20:21:09Z) - MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy [26.464639238671054]
我々は,少数の低エントロピー雑音と集団テキスト分布を混合しても,データ分布モードが縮退する可能性があると主張している。
我々は、機械翻訳モデルと言語モデルの長さ条件モードが、非条件モードよりも本当に流動的でトピック的であることを実証的に検証した。
論文 参考訳(メタデータ) (2023-11-15T09:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。