論文の概要: Context Tokens are Anchors: Understanding the Repetition Curse in dMLLMs from an Information Flow Perspective
- arxiv url: http://arxiv.org/abs/2601.20520v1
- Date: Wed, 28 Jan 2026 11:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.916339
- Title: Context Tokens are Anchors: Understanding the Repetition Curse in dMLLMs from an Information Flow Perspective
- Title(参考訳): コンテキストトークンはアンカーである:情報フローの観点からのdMLLMの繰り返しカースを理解する
- Authors: Qiyan Zhao, Xiaofeng Zhang, Shuochen Chang, Qianyu Chen, Xiaosong Yuan, Xuhang Chen, Luoqi Liu, Jiajun Zhang, Xu-Yao Zhang, Da-Han Wang,
- Abstract要約: キャッシュ機構は、しばしば望ましくない反復的なテキスト生成を導入する。
我々は情報フローのレンズを通して繰り返し生成を分析する。
繰り返しを緩和するプラグイン・アンド・プレイ方式である textbfCoTA を提案する。
- 参考スコア(独自算出の注目度): 40.28551750991027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent diffusion-based Multimodal Large Language Models (dMLLMs) suffer from high inference latency and therefore rely on caching techniques to accelerate decoding. However, the application of cache mechanisms often introduces undesirable repetitive text generation, a phenomenon we term the \textbf{Repeat Curse}. To better investigate underlying mechanism behind this issue, we analyze repetition generation through the lens of information flow. Our work reveals three key findings: (1) context tokens aggregate semantic information as anchors and guide the final predictions; (2) as information propagates across layers, the entropy of context tokens converges in deeper layers, reflecting the model's growing prediction certainty; (3) Repetition is typically linked to disruptions in the information flow of context tokens and to the inability of their entropy to converge in deeper layers. Based on these insights, we present \textbf{CoTA}, a plug-and-play method for mitigating repetition. CoTA enhances the attention of context tokens to preserve intrinsic information flow patterns, while introducing a penalty term to the confidence score during decoding to avoid outputs driven by uncertain context tokens. With extensive experiments, CoTA demonstrates significant effectiveness in alleviating repetition and achieves consistent performance improvements on general tasks. Code is available at https://github.com/ErikZ719/CoTA
- Abstract(参考訳): 近年の拡散型マルチモーダル大言語モデル (dMLLM) は、高い推論遅延に悩まされており、デコーディングを高速化するためにキャッシュ技術に依存している。
しかし、キャッシュ機構の適用は、しばしば望ましくない反復的なテキスト生成を導入し、これは、私たちが \textbf{Repeat Curse} と呼ぶ現象である。
この問題の根底にあるメカニズムをより深く解明するために,情報フローのレンズを通して繰り返し生成を分析する。
本研究は,(1)コンテキストトークンが意味情報をアンカーとして集約し,最終予測を導くこと,(2)コンテキストトークンのエントロピーが深い層に収束すること,(3)コンテキストトークンの情報フローの破壊と,そのエントロピーが深い層に収束できないこと,の3つの重要な知見を明らかにする。
これらの知見に基づき,反復を緩和するプラグイン・アンド・プレイ法である \textbf{CoTA} を提案する。
CoTAは、不確実なコンテキストトークンによって駆動される出力を避けるために、復号中に信頼度スコアにペナルティ項を導入しながら、固有の情報フローパターンを保存するためにコンテキストトークンの注意を喚起する。
大規模な実験により、CoTAは繰り返しを緩和し、一般的なタスクにおける一貫したパフォーマンス改善を実現する。
コードはhttps://github.com/ErikZ719/CoTAで入手できる。
関連論文リスト
- Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Decoding Memories: An Efficient Pipeline for Self-Consistency Hallucination Detection [17.792828844969033]
選択的推論と復号化により生成を高速化する新しいデコードメモリパイプライン(DMP)を提案する。
提案手法は,AUROC性能を犠牲にすることなく,最大3倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-08-28T21:39:53Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Maintaining Informative Coherence: Migrating Hallucinations in Large Language Models via Absorbing Markov Chains [6.920249042435973]
大規模言語モデル(LLM)は、テキスト生成、翻訳、要約のための強力なツールである。
LLMは、文脈情報の忠実さとコヒーレンスを維持するのに失敗する幻覚症状に悩まされることが多い。
本稿では,マルコフ連鎖を吸収し,文脈情報の重要性を定量化する新しい復号手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T04:51:18Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。