論文の概要: Training-Free Self-Correction for Multimodal Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.02927v1
- Date: Mon, 02 Feb 2026 23:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.145462
- Title: Training-Free Self-Correction for Multimodal Masked Diffusion Models
- Title(参考訳): マルチモーダルマスク拡散モデルのための学習自由自己補正
- Authors: Yidong Ouyang, Panwen Hu, Zhengyan Wan, Zhe Wang, Liyan Xie, Dmitriy Bespalov, Ying Nian Wu, Guang Cheng, Hongyuan Zha, Qiang Sun,
- Abstract要約: 本研究では,事前学習したマスク拡散モデルの帰納バイアスを利用した学習自由自己補正フレームワークを提案する。
本手法は,サンプリングステップを短縮したテキスト・画像生成およびマルチモーダル理解タスクにおける生成品質を著しく向上させる。
- 参考スコア(独自算出の注目度): 61.84305395626145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models have emerged as a powerful framework for text and multimodal generation. However, their sampling procedure updates multiple tokens simultaneously and treats generated tokens as immutable, which may lead to error accumulation when early mistakes cannot be revised. In this work, we revisit existing self-correction methods and identify limitations stemming from additional training requirements or reliance on misaligned likelihood estimates. We propose a training-free self-correction framework that exploits the inductive biases of pre-trained masked diffusion models. Without modifying model parameters or introducing auxiliary evaluators, our method significantly improves generation quality on text-to-image generation and multimodal understanding tasks with reduced sampling steps. Moreover, the proposed framework generalizes across different masked diffusion architectures, highlighting its robustness and practical applicability. Code can be found in https://github.com/huge123/FreeCorrection.
- Abstract(参考訳): マスケッド拡散モデルは、テキストとマルチモーダル生成のための強力なフレームワークとして登場した。
しかし、サンプリング手順は複数のトークンを同時に更新し、生成されたトークンを不変として扱い、初期ミスが修正できない場合にエラーの蓄積につながる可能性がある。
本研究は,既存の自己補正手法を再検討し,追加のトレーニング要件や不整合性推定に依存することに起因する制約を同定する。
本研究では,事前学習したマスク拡散モデルの帰納バイアスを利用した学習自由自己補正フレームワークを提案する。
提案手法は,モデルパラメータの変更や補助評価器の導入なしに,サンプリングステップの短縮によるテキスト・画像生成およびマルチモーダル理解タスクの生成品質を著しく向上させる。
さらに、提案フレームワークは、様々なマスク付き拡散アーキテクチャをまたいで一般化し、その堅牢性と実用性を強調している。
コードはhttps://github.com/huge123/FreeCorrectionにある。
関連論文リスト
- MixAR: Mixture Autoregressive Image Generation [12.846100277592969]
連続的自己回帰モデリングのための事前ガイダンスとして離散トークンを注入する新しいフレームワークであるMixARを紹介する。
本稿では、自己注意(DC-SA)、クロスアテンション(DC-CA)、均一なマスクトークンを情報的な個別のトークンに置き換える単純なアプローチ(DC-Mix)など、いくつかの離散連続混合戦略について検討する。
論文 参考訳(メタデータ) (2025-11-15T12:19:28Z) - Variational Masked Diffusion Models [8.801239075625151]
変分マスク付き拡散(VMD)は、潜伏変数をマスク拡散プロセスに導入するフレームワークである。
我々はVMDが従来のマスキング拡散が捕捉できない依存関係をうまく学習できることを実証した。
論文 参考訳(メタデータ) (2025-10-27T17:59:57Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Guided Star-Shaped Masked Diffusion [11.965970427956684]
本稿では,事前学習モデルを用いた新しいサンプリングアルゴリズムを提案する。
本手法は星型パラダイムを用いて生成過程を再構成する。
学習可能な再タスクスケジューラで拡張し、潜在的なエラーをインテリジェントに識別し、修正します。
論文 参考訳(メタデータ) (2025-10-09T15:53:51Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Informed Correctors for Discrete Diffusion Models [27.295990499157814]
離散拡散モデルに対する予測・相関型サンプリング手法を提案する。
情報補正器は,誤差が少なく,FIDスコアが向上した優れたサンプルを連続的に生成することを示す。
本結果は,離散拡散を用いた高速かつ高忠実な生成のための情報補正器の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-07-30T23:29:29Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。