論文の概要: Attention Sinks in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2510.15731v1
- Date: Fri, 17 Oct 2025 15:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.678127
- Title: Attention Sinks in Diffusion Language Models
- Title(参考訳): 拡散言語モデルにおける注意シンク
- Authors: Maximo Eduardo Rulli, Simone Petruzzi, Edoardo Michielon, Fabrizio Silvestri, Simone Scardapane, Alessio Devoto,
- Abstract要約: Masked Diffusion Language Models (DLM) は、最近、従来の自己回帰モデル (ARM) に代わる有望な代替品として登場した。
我々はDLMの注意パターンを実験的に分析し、これまで様々なトランスフォーマーアーキテクチャで見られた注意沈降現象に着目した。
まず、ARMとは異なり、DLMのシンク位置は生成過程を通して変化し、動的挙動を示す傾向にある。
- 参考スコア(独自算出の注目度): 15.450369268824835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Language Models (DLMs) have recently emerged as a promising alternative to traditional Autoregressive Models (ARMs). DLMs employ transformer encoders with bidirectional attention, enabling parallel token generation while maintaining competitive performance. Although their efficiency and effectiveness have been extensively studied, the internal mechanisms that govern DLMs remain largely unexplored. In this work, we conduct an empirical analysis of DLM attention patterns, focusing on the attention sinking phenomenon, an effect previously observed in various transformer-based architectures. Our findings reveal that DLMs also exhibit attention sinks, but with distinct characteristics. First, unlike in ARMs, the sink positions in DLMs tend to shift throughout the generation process, displaying a dynamic behaviour. Second, while ARMs are highly sensitive to the removal of attention sinks, DLMs remain robust: masking sinks leads to only a minor degradation in performance. These results provide new insights into the inner workings of diffusion-based language models and highlight fundamental differences in how they allocate and utilize attention compared to autoregressive models.
- Abstract(参考訳): Masked Diffusion Language Models (DLMs)は、最近、従来のAutoregressive Models (ARMs)に代わる有望な代替品として登場した。
DLMは双方向の注意を持つトランスフォーマーエンコーダを採用し、競合性能を維持しながら並列トークン生成を可能にする。
それらの効率と有効性は広く研究されているが、DLMを管理する内部メカニズムは未解明のままである。
本研究では,DLMの注意パターンを実験的に解析し,これまで様々な変圧器アーキテクチャで観測されてきた注意沈降現象に着目した。
以上の結果から,DLMにも注意シンクが認められるが,特徴が異なることが判明した。
第一に、ARMとは異なり、DLMのシンク位置は生成プロセスを通して変化し、動的な振る舞いを示す傾向がある。
第二に、ARMはアテンションシンクの除去に非常に敏感であるが、DLMはロバストであり、マスキングシンクはパフォーマンスをわずかに低下させるだけである。
これらの結果から,拡散型言語モデルの内部動作に対する新たな知見が得られ,自己回帰モデルと比較して,それらの配置と利用方法の根本的な違いが浮き彫りになる。
関連論文リスト
- Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models [82.87985794856803]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
最近、Diffusion Language Models (DLM) が有望な代替アーキテクチャとして登場した。
論文 参考訳(メタデータ) (2025-10-05T10:50:52Z) - A Survey on Diffusion Language Models [30.00199970146068]
拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムの代替である。
DLMは、推論遅延を減らし、双方向のコンテキストをキャプチャすることに固有の利点がある。
近年の進歩により、DLMは自己回帰に匹敵する性能を示すようになった。
論文 参考訳(メタデータ) (2025-08-14T17:47:22Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文 参考訳(メタデータ) (2023-10-08T16:16:21Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - David helps Goliath: Inference-Time Collaboration Between Small
Specialized and Large General Diffusion LMs [49.822063966687175]
拡散に基づく言語モデルは、自己回帰型LMに代わる有望な選択肢として浮上している。
我々は最近提案した拡散モデルSSD-LMを0.4Bから13Bパラメータに拡張する方法を提案する。
SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。
論文 参考訳(メタデータ) (2023-05-24T06:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。