論文の概要: Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2511.21338v1
- Date: Wed, 26 Nov 2025 12:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.092169
- Title: Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models
- Title(参考訳): マスクは引き離される可能性がある:拡散言語モデルにおける文脈理解について
- Authors: Julianna Piskorz, Cristina Pinneri, Alvaro Correia, Motasem Alfarra, Risheek Garrepalli, Christos Louizos,
- Abstract要約: Masked Diffusion Language Modelsは、Autoregressive Language Modelsに代わる有望な選択肢として登場した。
本研究は,MDLMの局所性バイアスが強いことを示す。
本稿では,マスク数に不変な予測を推奨するマスク非依存損失関数を提案する。
- 参考スコア(独自算出の注目度): 19.847438086389616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Language Models (MDLMs) have recently emerged as a promising alternative to Autoregressive Language Models (ARLMs), leveraging a denoising objective that, in principle, should enable more uniform context utilisation. In this work, we examine the context comprehension abilities of MDLMs and uncover two key limitations. First, despite their more global training objective and bidirectional attention mechanism, similarly to ARLMS, MDLMs exhibit a strong locality bias: performance is highly sensitive to the position of relevant information within the input, favouring local over distant context. Second, we show that appending a large number of mask tokens--required for generation--can significantly degrade context comprehension. Through systematic ablations, we find that these masks act as distractors, reducing the model's ability to process relevant information. To address this, we introduce a mask-agnostic loss function that encourages predictions to remain invariant to the number of appended masks. Fine-tuning with this objective substantially mitigates the distracting effect of masks, improving robustness of MDLMs. Overall, our findings reveal critical limitations of the current MDLM training paradigm and provide actionable insights for building diffusion-based language models with stronger context comprehension.
- Abstract(参考訳): Masked Diffusion Language Models (MDLM) は、最近、Autoregressive Language Models (ARLM) に代わる有望な代替品として登場した。
本研究では,MDLMの文脈理解能力について検討し,二つの重要な限界を明らかにする。
第一に、よりグローバルな訓練目標と双方向の注意機構にもかかわらず、ARLMSと同様、MDLMは強い局所性バイアスを示す。
第二に、大量のマスクトークンを付加することで、生成に必要とされ、コンテキストの理解が著しく低下することを示す。
体系的な改善を通じて、これらのマスクが邪魔役として機能し、関連する情報を処理するモデルの能力が低下することがわかった。
これを解決するために,マスク数に不変な予測を推奨するマスク非依存の損失関数を導入する。
この目的による微調整は、マスクの気を散らす効果を著しく軽減し、MDLMの堅牢性を向上させる。
本研究はMDLMトレーニングパラダイムの限界を明らかにするとともに,より強い文脈理解を持つ拡散型言語モデル構築のための実用的な洞察を提供する。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks [50.53590930588431]
敵対的な例は 自然言語処理システムに深刻な脅威をもたらします
近年の研究では、対角的テキストは通常のテキストの多様体から逸脱していることが示唆されているが、マスク付き言語モデルは正規データの多様体を近似することができる。
まず、マスク付き言語モデリング(MLM)の目的のマスクアンマスク操作を活用するMLMD(Masked Language Model-based Detection)を導入する。
論文 参考訳(メタデータ) (2025-04-08T14:10:57Z) - Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More [26.226145789963443]
Mask-Enhanced Autoregressive Prediction (MEAP)は、MLM(Masked Language Modeling)をNTP(Next-Token Prediction)にシームレスに統合する訓練パラダイムである。
集中的な実験では、MEAPはキー情報検索と長文推論タスクにおいてNTPを大幅に上回っている。
分析の結果,MEAPの有効性は,非マスキングトークンの少ないセットに集中することにより,より目立たしい注意点の獲得に寄与することが示唆された。
論文 参考訳(メタデータ) (2025-02-11T11:49:03Z) - ExLM: Rethinking the Impact of [MASK] Tokens in Masked Language Models [11.997499811414837]
Masked Language Models (ML)Mssは入力シーケンスの部分を[MASK]トークンでランダムにマスキングしてトレーニングし、残りのコンテキストに基づいて元のコンテンツを再構築する。
論文 参考訳(メタデータ) (2025-01-23T05:46:50Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。