論文の概要: Discrete Tilt Matching
- arxiv url: http://arxiv.org/abs/2604.18739v1
- Date: Mon, 20 Apr 2026 18:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.429566
- Title: Discrete Tilt Matching
- Title(参考訳): 離散ティルトマッチング
- Authors: Yuyuan Chen, Shiyi Wang, Peter Potaptchik, Jaeyeon Kim, Michael S. Albergo,
- Abstract要約: マスク付き拡散大言語モデル(dLLM)は自己回帰生成の代替として有望である。
DLLMファインチューニングを局所的アンマスキング後部の状態レベルのマッチングとして再キャストするDTM(Disdisrete Tilt Matching)を導出する。
DTMは、MATH500とGSM8Kの競争力を維持しながら、スドクとカウントダウンで強い利益を得る。
- 参考スコア(独自算出の注目度): 10.240234517598378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion large language models (dLLMs) are a promising alternative to autoregressive generation. While reinforcement learning (RL) methods have recently been adapted to dLLM fine-tuning, their objectives typically depend on sequence-level marginal likelihoods, which are intractable for masked diffusion models. To address this, we derive Discrete Tilt Matching (DTM), a likelihood-free method that recasts dLLM fine-tuning as state-level matching of local unmasking posteriors under reward tilting. DTM takes the form of a weighted cross-entropy objective with explicit minimizer, and admits control variates that improve training stability. On a synthetic maze-planning task, we analyze how DTM's annealing schedule and control variates affect training stability and prevent mode collapse. At scale, fine-tuning LLaDA-8B-Instruct with DTM yields strong gains on Sudoku and Countdown while remaining competitive on MATH500 and GSM8K.
- Abstract(参考訳): マスク付き拡散大言語モデル(dLLM)は自己回帰生成の代替として有望である。
強化学習(RL)法は近年dLLMファインチューニングに応用されているが、その目的は通常、マスク付き拡散モデルでは難解なシーケンスレベルの限界確率に依存する。
そこで我々はDTM(Drete Tilt Matching:離散ティルトマッチング)を導出する。DLLMファインチューニングを報酬傾き下での局所的アンマスキング後部の状態レベルのマッチングとして再キャストする。
DTMは、明らかに最小限の重み付きクロスエントロピーの目的を形取り、訓練安定性を改善するための制御変数を認める。
合成迷路計画タスクにおいて,DTMのアニールスケジュールと制御変動がトレーニング安定性にどのように影響するかを分析し,モード崩壊を防止する。
スケールでは、DTMを用いた微調整のLLaDA-8B-インストラクションは、MATH500とGSM8Kの競争力を維持しながら、スドクとカウントダウンで強い利得を得る。
関連論文リスト
- SLE-FNO: Single-Layer Extensions for Task-Agnostic Continual Learning in Fourier Neural Operators [0.4369550829556577]
新たな実験条件やシミュレーション体制は、以前のデータに再アクセスすることなく、外挿やモデル更新を必要とするため、大きく異なる場合がある。
これにより、破滅的な忘れを防ぎながら、分散シフトに適応できる継続的学習(CL)フレームワークの必要性が生まれます。
本稿では,SLE(Single-Layer Extension)とFNO(Fourier Neural Operator)を組み合わせたアーキテクチャベースアプローチ(SLE-FNO)を提案する。
論文 参考訳(メタデータ) (2026-03-20T18:30:38Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Bringing Stability to Diffusion: Decomposing and Reducing Variance of Training Masked Diffusion Models [8.964977926797173]
マスク付き拡散モデル(MDMs)は自己回帰モデル(ARMs)に代わる有望な代替品である
高い分散は、よりノイズの多い勾配推定と不安定な最適化をもたらすため、同様に強い事前訓練されたMDMやARMもタスク固有の訓練後に分岐する。
A)マスキングパターンノイズ,(B)マスキングレートノイズ,(C)データノイズの3つの源にMDMトレーニングのばらつきを初めて分解した。
論文 参考訳(メタデータ) (2025-11-22T19:04:47Z) - MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging [29.58798660724693]
連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを順次統合する。
テスト時間連続モデルマージの新しいフレームワークであるMINGLEを提案する。
MINGLEは堅牢な一般化を実現し、忘れることを大幅に減らし、従来の最先端の手法を平均で7-9%上回っている。
論文 参考訳(メタデータ) (2025-05-17T07:24:22Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。