Fugu-MT 論文翻訳(概要): Bayesian Discrete Diffusion Beats Autoregressive Perplexity

論文の概要: Bayesian Discrete Diffusion Beats Autoregressive Perplexity

arxiv url: http://arxiv.org/abs/2507.07586v1
Date: Thu, 10 Jul 2025 09:42:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.344759
Title: Bayesian Discrete Diffusion Beats Autoregressive Perplexity
Title（参考訳）: ベイジアン離散拡散は自己回帰パープレキシティを上回る
Authors: Cooper Doyle,
Abstract要約: 前方マスキング分布下での期待デノイザ出力は, 正確な後部トークンを回収することを示す。我々は,Kマスク・アンド・デノエーズパスを平均化する軽量な推定時間アンサンブルを導入し,後部認識トークンの確率を求める。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We reveal a hidden Bayesian core of discrete-diffusion language models by showing that the expected denoiser output under the forward masking distribution recovers the exact posterior over clean tokens. Under minimal assumptions, Monte Carlo marginalization over K independent corruptions converges to this posterior at rate O(1/sqrt(K)), yielding a simple proof of consistency and finite-sample error bounds. Building on this insight, we introduce a lightweight inference-time ensemble that averages K mask-and-denoise passes to obtain posterior-aware token probabilities and uncertainty estimates at no extra training cost. On WikiText-2, our method achieves test perplexity 8.8 with K=8, versus 20.3 for GPT-2 Small, despite using a model of comparable size. Code is available at https://github.com/mercury0100/bayesradd.
Abstract（参考訳）: 離散拡散言語モデルの隠れベイズコアを明らかにし、前方マスキング分布下での期待デノイザ出力がクリーントークンの正確な後部を復元することを示す。最小限の仮定の下では、K の独立な汚職に対するモンテカルロの辺化は O(1/sqrt(K)) でこの後続に収束し、一貫性と有限サンプル誤差境界の単純な証明を与える。この知見に基づいて,Kマスク・アンド・デノエーズ平均化による後生トークン確率と不確実性推定を余分な訓練コストなしで得る軽量な推定時間アンサンブルを導入する。 WikiText-2 では,テストパープレキシティ8.8 を K=8 で達成し,GPT-2 Small では 20.3 である。コードはhttps://github.com/mercury0100/bayesradd.comで入手できる。

関連論文リスト

Antithetic Noise in Diffusion Models [13.216777115252563]
それぞれの初期雑音と否定をペアリングすると、強い負の相関を持つサンプルが得られる。私たちのフレームワークはトレーニング不要で、モデルに依存しません。
論文参考訳（メタデータ） (2025-06-06T15:46:26Z)
Kernel-Smoothed Scores for Denoising Diffusion: A Bias-Variance Study [3.265950484493743]
拡散モデルは暗記しがちである。スコアの正規化は、トレーニングデータセットのサイズを増やすのと同じ効果がある。この視点は、拡散をデノナイズする2つの規則化機構を強調する。
論文参考訳（メタデータ） (2025-05-28T20:22:18Z)
Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文参考訳（メタデータ） (2025-03-07T08:41:53Z)
Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文参考訳（メタデータ） (2024-10-03T09:07:13Z)
Epistemic Uncertainty and Observation Noise with the Neural Tangent Kernel [12.464924018243988]
近年の研究では、勾配降下による広いニューラルネットワークのトレーニングは、ガウス過程における後部分布の平均を計算することと正式に等価であることが示されている。非ゼロアレタリックノイズに対処する方法を示し, 後部共分散推定器を導出する。
論文参考訳（メタデータ） (2024-09-06T00:34:44Z)
Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文参考訳（メタデータ） (2024-05-31T16:18:46Z)
Divide-and-Conquer Posterior Sampling for Denoising Diffusion Priors [21.0128625037708]
提案手法は, 分割・分散型後方サンプリング方式である。これにより、再トレーニングを必要とせずに、現在のテクニックに関連する近似誤差を低減することができる。ベイズ逆問題に対するアプローチの汎用性と有効性を示す。
論文参考訳（メタデータ） (2024-03-18T01:47:24Z)
Calibrating Neural Simulation-Based Inference with Differentiable Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文参考訳（メタデータ） (2023-10-20T10:20:45Z)
Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文参考訳（メタデータ） (2023-08-13T14:05:24Z)
Unscented Autoencoder [3.0108936184913295]
変分オートエンコーダ(VAE)は、潜伏変数を用いた深部生成モデリングにおける基礎的なアプローチである。フィルタの分野からUnscented Kalman Filter (UKF) によく知られた分布近似である Unscented Transform (UT) を適用する。我々は,VAE(Unscented Autoencoder, UAE)の新規な決定論的サンプリングフレーバーを,サンプル毎の後部における正規化のような用語で純粋に訓練した。
論文参考訳（メタデータ） (2023-06-08T14:53:02Z)
Bayesian Pseudo-Coresets via Contrastive Divergence [5.479797073162603]
対照的な発散を利用して擬似コアセットを構築するための新しい手法を提案する。これは擬似コアセット構築プロセスにおける近似の必要性を排除する。複数のデータセットに対して広範な実験を行い、既存のBPC技術よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T17:13:50Z)
Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-11T15:20:54Z)
Do Bayesian Variational Autoencoders Know What They Don't Know? [0.6091702876917279]
OoD(Out-of-Distribution)入力を検出する問題は、ディープニューラルネットワークにとって最重要課題である。入力の密度を推定できる深部生成モデルでさえ、信頼できない可能性があることが以前に示されている。本稿では,マルコフ連鎖モンテカルロ,バックプロパゲーションによるベイズ勾配,およびウェイト平均ガウスの3つの推論手法について検討する。
論文参考訳（メタデータ） (2022-12-29T11:48:01Z)
Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文参考訳（メタデータ） (2022-11-30T05:33:29Z)
Multi-hypothesis 3D human pose estimation metrics favor miscalibrated distributions [3.8575800313102806]
よく校正された分布は曖昧さを明確にし、下流のタスクの不確実性を維持することができる。誤校正は、minMPJPEなどのサンプルベースメトリクスの使用によるものである。この問題を軽減するために,条件付きグラフ正規化フロー (CGNF) と呼ばれる,精度よく校正されたモデルを提案する。
論文参考訳（メタデータ） (2022-10-20T11:47:07Z)
Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。彼らは不利な姿勢と収束の不安定さに悩まされる。本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文参考訳（メタデータ） (2021-06-06T18:05:02Z)
Bayesian Uncertainty Estimation of Learned Variational MRI Reconstruction [63.202627467245584]
我々は,モデル不連続な不確かさを定量化するベイズ変分フレームワークを提案する。提案手法はMRIのアンダーサンプを用いた再建術の術後成績を示す。
論文参考訳（メタデータ） (2021-02-12T18:08:14Z)
Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文参考訳（メタデータ） (2020-07-20T02:46:21Z)
Consistency Regularization for Certified Robustness of Smoothed Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文参考訳（メタデータ） (2020-06-07T06:57:43Z)
A Batch Normalized Inference Network Keeps the KL Vanishing Away [35.40781000297285]
変分オートエンコーダ(VAE)はモデルの後続変数を近似するために広く用いられている。 VAEはしばしば「後崩壊」と呼ばれる退化した局所最適値に収束する
論文参考訳（メタデータ） (2020-04-27T05:20:01Z)
Generative Modeling with Denoising Auto-Encoders and Langevin Sampling [88.83704353627554]
DAEとDSMの両方がスムーズな人口密度のスコアを推定することを示した。次に、この結果をarXiv:1907.05600のホモトピー法に適用し、その経験的成功を理論的に正当化する。
論文参考訳（メタデータ） (2020-01-31T23:50:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。