論文の概要: LoopGuard: Breaking Self-Reinforcing Attention Loops via Dynamic KV Cache Intervention
- arxiv url: http://arxiv.org/abs/2604.10044v1
- Date: Sat, 11 Apr 2026 05:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.810037
- Title: LoopGuard: Breaking Self-Reinforcing Attention Loops via Dynamic KV Cache Intervention
- Title(参考訳): LoopGuard:動的KVキャッシュ干渉による自己強化アテンションループの破壊
- Authors: Dongjie Xu, Hao Wu, Weijie Shi, Yue Cui, Yuanjun Liu, Jiawei Li, Haolun Ma, An Liu, Jia Zhu, Jiajie Xu,
- Abstract要約: 復号化が持続的な繰り返しループに崩壊する危険性のある障害モードを観察する。
この変性は、ヘッドのサブセットが履歴の狭い接尾辞にロックされる、崩壊した注意パターンによって引き起こされる。
ループオンセットをオンラインで検出し、繰り返しテールスパンを刈り取ることでフィードバックサイクルを中断するKVキャッシュガードであるLoopGuardを提案する。
- 参考スコア(独自算出の注目度): 17.503793965285045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through systematic experiments on long-context generation, we observe a damaging failure mode in which decoding can collapse into persistent repetition loops. We find that this degeneration is driven by collapsed attention patterns, where a subset of heads locks onto a narrow suffix of the history, and is further stabilized by inference-time KV cache reuse. Crucially, since many existing KV cache policies rely on attention-based importance, this collapse can produce spuriously high scores for repetitive tokens, causing cache management to inadvertently amplify repetition. To study this phenomenon in a controlled and reproducible manner, we introduce LoopBench, a benchmark with explicit loop-inducing conditions and loop-oriented metrics that quantify repetition severity and generation instability beyond downstream task scores. Building on these insights, we propose LoopGuard, a lightweight, plug-in KV cache guard that detects loop onset online and disrupts the feedback cycle by pruning repetitive tail spans under a fixed cache budget. Experiments on LoopBench show that LoopGuard reduces loop incidence by over 90 percentage points, while restoring output diversity and reducing token waste.
- Abstract(参考訳): 長文生成に関する系統的な実験を通じて,復号化が持続的な繰り返しループに崩壊する破損モードを観察する。
このデジェネレーションは、ヘッドの一部が履歴の狭い接点にロックされ、推論時KVキャッシュの再利用によってさらに安定化されるような、崩壊した注意パターンによって駆動される。
重要なことに、多くの既存のKVキャッシュポリシーは注意に基づく重要性に依存しているため、この崩壊は繰り返しトークンの急激な高いスコアを生み出し、キャッシュ管理が必然的に繰り返しを増幅する。
この現象を制御・再現可能な方法で研究するために、ループベンチ(LoopBench)を導入し、ループ誘導条件とループ指向メトリクスを用いて、下流タスクスコアを超える繰り返し重大度と生成不安定度を定量化する。
これらの知見に基づいて、ループオンセットをオンラインで検出し、固定されたキャッシュ予算の下で繰り返しテールをプルーニングすることでフィードバックサイクルを中断する、軽量でプラグイン付きのKVキャッシュガードであるLoopGuardを提案する。
LoopBenchの実験では、LoopGuardは出力の多様性を回復し、トークンの無駄を減らしながら、ループインシデントを90パーセント以上削減している。
関連論文リスト
- HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising [52.237486207964245]
HiARは階層的なデノベーションフレームワークで、従来の世代順を逆転させる。
発声ステップ毎に全てのブロックを因果生成し、各ブロックが常に同じノイズレベルでコンテキストで条件付けされるようにする。
VBench(20世代)では、HiARは比較したすべての方法の中で最高の総合スコアと最低時間ドリフトを達成する。
論文 参考訳(メタデータ) (2026-03-09T17:58:16Z) - Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding [28.23607623451461]
COVERは、単一のフォワードパス内で、一括検証と安定したドラフトを実行する。
不確実性、下流の影響、キャッシュドリフトのバランスを保ち、ステップ毎に検証された種子の数に適応する。
ベンチマーク全体で、COVERは不要なリビジョンを減らし、出力品質を維持しながらより高速なデコードをもたらす。
論文 参考訳(メタデータ) (2026-02-05T19:58:48Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - Circular Reasoning: Understanding Self-Reinforcing Loops in Large Reasoning Models [66.11277323593475]
Circular Reasoningは、生成されたコンテンツが自身の再発の論理的前提として機能する自己強化トラップである。
機械学的には、円の推論は異なる境界を示す状態崩壊として特徴付けられる。
自己強化型V字型アテンション機構によって駆動される不自由なサイクルとして継続するループ開始を誘導する推論が阻害されることを明らかにする。
論文 参考訳(メタデータ) (2026-01-09T10:23:55Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - Retrospective Sparse Attention for Efficient Long-Context Generation [5.562294018150909]
RetroAttentionは、後続の復号ステップから新たに到着したKVエントリを使用して、過去の注意出力を遡及的に更新する。
これは固定アテンション・アウトプットのパラダイムを破り、事前近似の継続的な修正を可能にする。
実験により、RetroAttention は最先端(SOTA) KV 圧縮法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-08-12T15:11:47Z) - LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning [21.761205124793175]
拡張推論シーケンスでは、キー値(KV)キャッシュの増加によるGPUメモリオーバーヘッドが大幅に増加する。
既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。
トークンの繰り返しパターンに基づいた優先順位付けによる遅延繰り返しトークンを保持する観測窓ベースのラッチ消去フレームワークであるLazyEvictionを提案する。
論文 参考訳(メタデータ) (2025-06-19T02:25:04Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Context-aware and Scale-insensitive Temporal Repetition Counting [60.40438811580856]
時間的反復カウントは、与えられた反復行動のサイクル数を推定することを目的としている。
既存のディープラーニング手法は、実生活における複雑な反復行動に対して無効である固定された時間スケールで繰り返し動作が実行されると仮定する。
本稿では,未知かつ多様なサイクル長による繰り返しカウントの課題に対処するための文脈認識・スケール非感性フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-18T05:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。