論文の概要: One Token Is Enough: Improving Diffusion Language Models with a Sink Token
- arxiv url: http://arxiv.org/abs/2601.19657v1
- Date: Tue, 27 Jan 2026 14:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.348833
- Title: One Token Is Enough: Improving Diffusion Language Models with a Sink Token
- Title(参考訳): ひとつのトークン:シンクトークンによる拡散言語モデルの改善
- Authors: Zihou Zhang, Zheyong Xie, Li Zhong, Haifeng Liu, Shaosheng Cao,
- Abstract要約: 拡散言語モデル (DLMs) は自己回帰的アプローチの魅力的な代替手段として登場した。
DLMには、動くシンク現象という重要な不安定性がある。
改良されたアテンションマスクによって実装された簡易だが効果的な余剰シンクトークンを提案する。
- 参考スコア(独自算出の注目度): 9.076240488230274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Language Models (DLMs) have emerged as a compelling alternative to autoregressive approaches, enabling parallel text generation with competitive performance. Despite these advantages, there is a critical instability in DLMs: the moving sink phenomenon. Our analysis indicates that sink tokens exhibit low-norm representations in the Transformer's value space, and that the moving sink phenomenon serves as a protective mechanism in DLMs to prevent excessive information mixing. However, their unpredictable positions across diffusion steps undermine inference robustness. To resolve this, we propose a simple but effective extra sink token implemented via a modified attention mask. Specifically, we introduce a special token constrained to attend solely to itself, while remaining globally visible to all other tokens. Experimental results demonstrate that introducing a single extra token stabilizes attention sinks, substantially improving model performance. Crucially, further analysis confirms that the effectiveness of this token is independent of its position and characterized by negligible semantic content, validating its role as a robust and dedicated structural sink.
- Abstract(参考訳): Diffusion Language Models (DLM) は自動回帰の代替として登場し、競合する性能を持つ並列テキスト生成を可能にしている。
これらの利点にも拘わらず、DLMには移動流し現象(移動流し現象)という重要な不安定性がある。
解析の結果、トランスフォーマーの値空間にシンクトークンが低ノルム表現を示し、移動シンク現象がDLMの保護機構として機能し、過剰な情報混合を防止することが示唆された。
しかし、拡散過程における予測不可能な位置は、推論の堅牢性を損なう。
そこで本研究では,改良型アテンションマスクを用いて実装した簡易かつ効果的な余剰シンクトークンを提案する。
具体的には、他のすべてのトークンに対してグローバルに可視でありながら、自分自身にのみ参加するように制約された特別なトークンを導入します。
実験により,1つの余分なトークンの導入は注意シンクを安定化させ,モデル性能を著しく向上させることを示した。
さらに重要な分析では、このトークンの有効性は位置から独立しており、無視可能な意味的内容によって特徴づけられ、頑丈で専用の構造的シンクとしての役割を検証している。
関連論文リスト
- D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - Attention Sinks in Diffusion Language Models [15.450369268824835]
Masked Diffusion Language Models (DLM) は、最近、従来の自己回帰モデル (ARM) に代わる有望な代替品として登場した。
我々はDLMの注意パターンを実験的に分析し、これまで様々なトランスフォーマーアーキテクチャで見られた注意沈降現象に着目した。
まず、ARMとは異なり、DLMのシンク位置は生成過程を通して変化し、動的挙動を示す傾向にある。
論文 参考訳(メタデータ) (2025-10-17T15:23:58Z) - Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs [54.229363096087866]
音声トークン化器は、意味不明な音響摂動に対して頑健ではない。
この不安定性は、脆い単一パス量子化アーキテクチャと遠い訓練信号の2つの欠陥に由来する。
コンセンサス駆動機構による安定性を実現するトークンライザであるStableTokenを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:32:51Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Attention Sinks: A 'Catch, Tag, Release' Mechanism for Embeddings [16.950215926321558]
大型言語モデル(LLM)は、注意シンクと呼ばれるいくつかの特定のトークンに注意を集中することが多い。
一般的な例として、最初のトークン、プロンプト非依存のシンク、句読点がある。
その普遍性にもかかわらず、機能、意味的役割、注意の起源はいまだに理解されていない。
論文 参考訳(メタデータ) (2025-02-02T21:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。