論文の概要: Relaxing Positional Alignment in Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2601.22947v1
- Date: Fri, 30 Jan 2026 13:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.456376
- Title: Relaxing Positional Alignment in Masked Diffusion Language Models
- Title(参考訳): マスケ拡散言語モデルにおける位置アライメントの緩和
- Authors: Mengyu Ye, Ryosuke Takahashi, Keito Kudo, Jun Suzuki,
- Abstract要約: マスケード拡散言語モデル(MDLM)は、支配的な自己回帰的アプローチに代わる有望な代替手段として登場した。
厳密な位置予測によってMDLMの復号化がトークンの誤認識に非常に敏感になることを示す。
本手法は広く使われているMDLMモデルに適用し、5つのオープンエンドテキスト生成ベンチマークで実験を行う。
- 参考スコア(独自算出の注目度): 6.511565218210195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion language models (MDLMs) have emerged as a promising alternative to dominant autoregressive approaches. Although they achieve competitive performance on several tasks, a substantial gap remains in open-ended text generation. We hypothesize that one cause of this gap is that strict positional prediction makes MDLM decoding highly sensitive to token misalignment, and we show through controlled interventions that a one-position shift can severely disrupt semantics. This observation suggests that enforcing strict positional supervision during training is misaligned with the irreversible denoising dynamics of MDLM decoding. Motivated by this mismatch, we adopt an alignment-flexible supervision strategy during fine-tuning. Specifically, we introduce a special token <slack> via the connectionist temporal classification objective. We apply this approach to the widely used MDLM model and conduct experiments on five open-ended text generation benchmarks. Our method consistently outperforms the original model and improves robustness to positional shifts, indicating that relaxing strict positional supervision is an important factor in improving generation quality in MDLMs.
- Abstract(参考訳): マスク付き拡散言語モデル (MDLM) は、支配的な自己回帰的アプローチに代わる有望な代替手段として登場した。
いくつかのタスクで競合性能を達成するが、オープンエンドテキスト生成では大きなギャップが残っている。
このギャップの1つの原因は、厳密な位置予測がMDLMをトークンの不一致に非常に敏感にデコードすることを仮定し、一位置シフトが意味論を著しく破壊する可能性があることを制御された介入を通して示している。
この観察から,訓練中の厳格な位置監督を強制することは,MDLM復号の不可逆的復号化力学と一致しないことが示唆された。
このミスマッチに動機づけられた我々は、微調整中にアライメントフレキシブルな監視戦略を採用する。
具体的には,コネクショニストの時間的分類の目的を通じて,特別なトークン<slack>を導入する。
本手法を広く使われているMDLMモデルに適用し、5つのオープンエンドテキスト生成ベンチマークで実験を行う。
本手法は, MDLMの生成品質向上において, 厳密な位置管理の緩和が重要な要因であることを示す。
関連論文リスト
- Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - MDiff4STR: Mask Diffusion Model for Scene Text Recognition [59.79818820650126]
Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル (ARM) に代わる有望な代替品として登場した。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
シーンテキスト認識に適した2つの重要な改善戦略を備えたマスク拡散モデルMDiff4STRを提案する。
論文 参考訳(メタデータ) (2025-12-01T08:57:51Z) - Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models [19.847438086389616]
Masked Diffusion Language Modelsは、Autoregressive Language Modelsに代わる有望な選択肢として登場した。
本研究は,MDLMの局所性バイアスが強いことを示す。
本稿では,マスク数に不変な予測を推奨するマスク非依存損失関数を提案する。
論文 参考訳(メタデータ) (2025-11-26T12:44:29Z) - Masked Diffusion Models are Secretly Learned-Order Autoregressive Models [21.17429712617749]
Masked Diffusion Modelsは、トレーニング中にデコード順序を識別し、最適化できることを示す。
これらの命令に対してMDMの目的が正確に重み付けされた自己回帰的損失に分解されることを証明する。
論文 参考訳(メタデータ) (2025-11-24T14:17:56Z) - Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking [15.052244821404079]
本稿では,モデルの予測信頼度を利用して非条件入力を調整する新しい手法であるAdaptive-Free Guidance (A-CFG)を紹介する。
A-CFGは、より効果的なガイダンスにつながる曖昧さの領域に焦点を当てている。
多様な言語生成ベンチマークの実験では、A-CFGは標準CFGよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-26T16:40:22Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。