論文の概要: SinkTrack: Attention Sink based Context Anchoring for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.10027v1
- Date: Sat, 11 Apr 2026 04:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.798316
- Title: SinkTrack: Attention Sink based Context Anchoring for Large Language Models
- Title(参考訳): SinkTrack: 大きな言語モデルのための注意シンクベースのコンテキストアンカリング
- Authors: Xu Liu, Guikun Chen, Wenguan Wang,
- Abstract要約: 大型言語モデル (LLM) は幻覚やコンテキストの忘れに悩まされる。
SinkTrackはBOS>を情報アンカーとして扱い、キーコンテキストの機能をその表現に注入する。
SinkTrackはトレーニング不要で、プラグイン&プレイで、無視可能な推論オーバーヘッドを導入している。
- 参考スコア(独自算出の注目度): 57.87121346197518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) suffer from hallucination and context forgetting. Prior studies suggest that attention drift is a primary cause of these problems, where LLMs' focus shifts towards newly generated tokens and away from the initial input context. To counteract this, we make use of a related, intrinsic characteristic of LLMs: attention sink -- the tendency to consistently allocate high attention to the very first token (i.e., <BOS>) of a sequence. Concretely, we propose an advanced context anchoring method, SinkTrack, which treats <BOS> as an information anchor and injects key contextual features (such as those derived from the input image or instruction) into its representation. As such, LLM remains anchored to the initial input context throughout the entire generation process. SinkTrack is training-free, plug-and-play, and introduces negligible inference overhead. Experiments demonstrate that SinkTrack mitigates hallucination and context forgetting across both textual (e.g., +21.6% on SQuAD2.0 with Llama3.1-8B-Instruct) and multi-modal (e.g., +22.8% on M3CoT with Qwen2.5-VL-7B-Instruct) tasks. Its consistent gains across different architectures and scales underscore the robustness and generalizability. We also analyze its underlying working mechanism from the perspective of information delivery. Our source code is available at https://github.com/67L1/SinkTrack.
- Abstract(参考訳): 大型言語モデル (LLM) は幻覚やコンテキストの忘れに悩まされる。
従来の研究では、注意の漂流がこれらの問題の主な原因であり、LSMは新しく生成されたトークンに焦点を移し、初期入力コンテキストから遠ざかる。
注意シンク -- シーケンスの最初のトークン(すなわち<BOS>)に常に高い注意を割り当てる傾向。
具体的には,<BOS>を情報アンカーとして扱い,重要なコンテキスト特徴(入力画像や命令から派生したものなど)を表現に注入する,高度なコンテキストアンカー手法であるSinkTrackを提案する。
そのため、LLMは生成プロセス全体を通して初期入力コンテキストに固定されている。
SinkTrackはトレーニング不要で、プラグイン&プレイで、無視可能な推論オーバーヘッドを導入している。
実験により、SinkTrackは、Llama3.1-8B-InstructのSQuAD2.0で、+21.6%、Qwen2.5-VL-7B-InstructのM3CoTで、+22.8%、Qwen2.5-VL-7B-Instructの両タスクで、幻覚とコンテキストの忘れを緩和することを示した。
その一貫性のあるアーキテクチャとスケールは、堅牢性と一般化可能性を強調している。
また、情報配信の観点から、その基盤となる作業メカニズムを解析する。
ソースコードはhttps://github.com/67L1/SinkTrack.comから入手可能です。
関連論文リスト
- Stem: Rethinking Causal Information Flow in Sparse Attention [28.46760179998361]
本稿では,情報フローに整合した新しいプラグアンドプレイスペースモジュールであるStemを提案する。
まず、StemはToken Position-Decay戦略を採用し、各レイヤ内で位置依存のトップkを適用して初期トークンを保持する。
次に、情報豊富なトークンを保存するために、StemはOutput-Aware Metricを使用する。
論文 参考訳(メタデータ) (2026-03-06T13:33:29Z) - Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文 参考訳(メタデータ) (2026-03-03T14:25:02Z) - VCoT-Grasp: Grasp Foundation Models with Visual Chain-of-Thought Reasoning for Language-driven Grasp Generation [67.98487725287835]
VCoT-Graspは、視覚的連鎖推論を取り入れたエンドツーエンドの把握基盤モデルであり、把握生成のための視覚的理解を強化する。
トレーニングのために、我々は167Kの合成画像と1.36Mのグリップを含む大規模なデータセットVCoT-GraspSetを洗練、導入した。
本手法は, 達成率を大幅に向上させ, 未知の物体, 背景, 邪魔者に効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-07T11:50:26Z) - CTR-Sink: Attention Sink for Language Models in Click-Through Rate Prediction [42.92011330807996]
$textitCTR-Sink$は、レコメンデーションシナリオに適した振る舞いレベルの注意シンクを導入した、新しいフレームワークである。
注意シンク理論にヒントを得て、注意集中シンクを構築し、外部情報を介して注意集約を動的に制御する。
論文 参考訳(メタデータ) (2025-08-05T17:30:34Z) - Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z) - SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - StoryGPT-V: Large Language Models as Consistent Story Visualizers [33.68157535461168]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
本稿では,LDMとLDMの利点を生かしたemphStoryGPT-Vを提案する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。