論文の概要: Revealing the Attention Floating Mechanism in Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.07894v1
- Date: Mon, 12 Jan 2026 09:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.900756
- Title: Revealing the Attention Floating Mechanism in Masked Diffusion Models
- Title(参考訳): 仮設拡散モデルにおける注意浮きメカニズムの解明
- Authors: Xin Dai, Pengcheng Huang, Zhenghao Liu, Shuo Wang, Yukun Yan, Chaojun Xiao, Yu Gu, Ge Yu, Maosong Sun,
- Abstract要約: マスク付き拡散モデル(MDMs)は、双方向の注意とデノナイジングプロセスを活用する。
本稿では,MDMにおける注意行動について検討し,注意浮動現象を明らかにした。
- 参考スコア(独自算出の注目度): 52.74142815156738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked diffusion models (MDMs), which leverage bidirectional attention and a denoising process, are narrowing the performance gap with autoregressive models (ARMs). However, their internal attention mechanisms remain under-explored. This paper investigates the attention behaviors in MDMs, revealing the phenomenon of Attention Floating. Unlike ARMs, where attention converges to a fixed sink, MDMs exhibit dynamic, dispersed attention anchors that shift across denoising steps and layers. Further analysis reveals its Shallow Structure-Aware, Deep Content-Focused attention mechanism: shallow layers utilize floating tokens to build a global structural framework, while deeper layers allocate more capability toward capturing semantic content. Empirically, this distinctive attention pattern provides a mechanistic explanation for the strong in-context learning capabilities of MDMs, allowing them to double the performance compared to ARMs in knowledge-intensive tasks. All codes and datasets are available at https://github.com/NEUIR/Attention-Floating.
- Abstract(参考訳): 双方向の注意とデノナイジングプロセスを活用するマスク付き拡散モデル(MDM)は、自己回帰モデル(ARM)による性能ギャップを狭めている。
しかし、内部の注意機構は未解明のままである。
本稿では,MDMにおける注意行動について検討し,注意浮動現象を明らかにした。
注意が固定されたシンクに収束するARMとは異なり、MDMはダイナミックで分散した注意アンカーを示し、段階や層を横切る。
浅いレイヤはフローティングトークンを使用してグローバルな構造フレームワークを構築し、深いレイヤはセマンティックコンテンツをキャプチャするためにより多くの能力を割り当てます。
経験的に、この特徴ある注意パターンは、MDMの強いコンテキスト内学習能力を機械論的に説明し、知識集約タスクにおけるARMと比較して性能を2倍にすることができる。
すべてのコードとデータセットはhttps://github.com/NEUIR/Attention-Floating.comで公開されている。
関連論文リスト
- Attention Sinks in Diffusion Language Models [15.450369268824835]
Masked Diffusion Language Models (DLM) は、最近、従来の自己回帰モデル (ARM) に代わる有望な代替品として登場した。
我々はDLMの注意パターンを実験的に分析し、これまで様々なトランスフォーマーアーキテクチャで見られた注意沈降現象に着目した。
まず、ARMとは異なり、DLMのシンク位置は生成過程を通して変化し、動的挙動を示す傾向にある。
論文 参考訳(メタデータ) (2025-10-17T15:23:58Z) - MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding [24.731387422897644]
マルチモーダル大言語モデル(MLLM)は、最近、複数のモーダル間のデータ統合において強力な能力を示した。
Modular Duplex Attention (MODA)は、インナー・モーダル・リファインメントとインターモーダル・インタラクションを同時に行う。
21のベンチマークデータセットの実験は、知覚、認知、感情タスクにおけるMODAの有効性を検証する。
論文 参考訳(メタデータ) (2025-07-07T03:37:42Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Dynamic Scene Deblurring Base on Continuous Cross-Layer Attention
Transmission [6.3482616879743885]
我々は,すべての畳み込み層からの階層的注意情報を活用するための,新しい連続的層間注意伝達(CCLAT)機構を導入する。
RDAFB をビルディングブロックとし,RDAFNet という動的シーン分離のための効果的なアーキテクチャを設計する。
ベンチマークデータセットの実験では、提案されたモデルが最先端のデブロワーリングアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-06-23T04:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。