論文の概要: Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.14530v2
- Date: Tue, 19 May 2026 00:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.353784
- Title: Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models
- Title(参考訳): 大型拡散型ビジョンランゲージモデルにおける前方ドリフトと位置注意崩壊の緩和
- Authors: Sujung Hong, Chanyong Yoon, Seong Jae Hwang,
- Abstract要約: LDVLMは反復的な生成と劣化した視覚的接地に悩まされている。
本研究では,Mask Prior Suppression と Monotonic RoPE Scaling を導入したトレーニングフリーアプローチを提案する。
以上の結果から,これらの障害は軽量なプラグアンドプレイ戦略によって効果的に対処できることが示唆された。
- 参考スコア(独自算出の注目度): 7.964052580720558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large diffusion vision-language models (LDVLMs) have recently emerged as a promising alternative to autoregressive models, enabling parallel decoding for efficient inference and leveraging bidirectional attention for global context. Despite these advances, their behavior under long-form generation remains underexplored. In this work, we show that existing LDVLMs suffer from repetitive generation and degraded visual grounding, and identify two underlying causes. First, repetitive generation originates from a mask token prior: since generation tokens are initialized as mask tokens, their hidden representations progressively drift toward a shared prior direction over generation steps. Second, a fundamental misalignment between the positional attention bias and the iterative unmasking process suppresses attention toward informative visual tokens, degrading visual grounding. Based on these insights, we propose a training-free approach, introducing Mask Prior Suppression and Monotonic RoPE Scaling to mitigate mask prior drift and positional attention collapse during decoding. Experiments on general multimodal benchmarks and visual grounding tasks demonstrate improvements over baseline LDVLMs, with robust gains on long-form description benchmarks. Our results show that these failures can be effectively addressed with a lightweight, plug-and-play strategy that requires no additional training and generalizes across diverse LDVLM architectures.
- Abstract(参考訳): 大規模拡散視覚言語モデル(LDVLM)は近年,自己回帰モデルに代わる有望な代替手段として出現し,効率的な推論のための並列復号化と,グローバルな文脈における双方向の注意の活用を実現している。
これらの進歩にもかかわらず、長文世代における彼らの行動は未解明のままである。
本研究では,既存のLDVLMが繰り返し生成と劣化した視覚的グラウンドリングに悩まされていることを示し,その原因を2つ同定する。
生成トークンはマスクトークンとして初期化されるため、隠れた表現は生成ステップよりも共有前の方向に向かって徐々に流れていく。
第2に、位置注意バイアスと反復的アンマスキング過程の根本的な不一致は、視覚的接地を低下させ、情報的視覚トークンに対する注意を抑制する。
これらの知見に基づいて,マスクのドリフトとデコード時の位置的注意崩壊を緩和するために,マスク先行抑制とモノトニックロPEスケーリングを導入したトレーニングフリーアプローチを提案する。
一般的なマルチモーダルベンチマークと視覚的グラウンド化タスクの実験は、ベースラインLDVLMよりも改善され、ロングフォーム記述ベンチマークは頑健に向上した。
以上の結果から, LDVLMアーキテクチャを多用する追加のトレーニングや一般化を必要としない軽量なプラグアンドプレイ戦略により, これらの障害を効果的に対処できることが示唆された。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。
また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文 参考訳(メタデータ) (2025-12-02T09:02:20Z) - Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models [19.847438086389616]
Masked Diffusion Language Modelsは、Autoregressive Language Modelsに代わる有望な選択肢として登場した。
本研究は,MDLMの局所性バイアスが強いことを示す。
本稿では,マスク数に不変な予測を推奨するマスク非依存損失関数を提案する。
論文 参考訳(メタデータ) (2025-11-26T12:44:29Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。