論文の概要: Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis
- arxiv url: http://arxiv.org/abs/2601.21709v1
- Date: Thu, 29 Jan 2026 13:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.855386
- Title: Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis
- Title(参考訳): 注意パターンが存在しない理由:統合的時間的視点分析
- Authors: Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li,
- Abstract要約: textbfTemporal Attention Pattern Predictability Analysis (TAPPA)を紹介する。
TAPPAは、注意パターンを明確な規則性を持つ予測可能なパターンと、効果的にランダムに見える予測不可能なパターンと特徴付けている。
クエリ,キー,ロータリー位置埋め込み(RoPE)の結合効果による3つの代表的な症例の詳細な数学的解析を行う。
- 参考スコア(独自算出の注目度): 61.597286699809395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention patterns play a crucial role in both training and inference of large language models (LLMs). Prior works have identified individual patterns such as retrieval heads, sink heads, and diagonal traces, yet these observations remain fragmented and lack a unifying explanation. To bridge this gap, we introduce \textbf{Temporal Attention Pattern Predictability Analysis (TAPPA), a unifying framework that explains diverse attention patterns by analyzing their underlying mathematical formulations} from a temporally continuous perspective. TAPPA both deepens the understanding of attention behavior and guides inference acceleration approaches. Specifically, TAPPA characterizes attention patterns as predictable patterns with clear regularities and unpredictable patterns that appear effectively random. Our analysis further reveals that this distinction can be explained by the degree of query self-similarity along the temporal dimension. Focusing on the predictable patterns, we further provide a detailed mathematical analysis of three representative cases through the joint effect of queries, keys, and Rotary Positional Embeddings (RoPE). We validate TAPPA by applying its insights to KV cache compression and LLM pruning tasks. Across these tasks, a simple metric motivated by TAPPA consistently improves performance over baseline methods. The code is available at https://github.com/MIRALab-USTC/LLM-TAPPA.
- Abstract(参考訳): 注意パターンは、大きな言語モデル(LLM)のトレーニングと推論の両方において重要な役割を果たす。
以前の研究では、検索ヘッド、シンクヘッド、対角線跡などの個々のパターンが特定されていたが、これらの観測は断片化され、統一的な説明が得られていない。
このギャップを埋めるために、時間的に連続的な視点から基礎となる数学的定式化を解析することによって、多様な注意パターンを説明する統合フレームワークである、TaPPA(textbf{Temporal Attention Pattern Predictability Analysis)を導入する。
TAPPAは、注意行動の理解を深め、推論加速アプローチをガイドする。
特に、TAPPAは注意パターンを、明確な規則性と予測不可能なパターンが効果的にランダムに現れる予測可能なパターンとして特徴付けている。
分析の結果,この区別は時間次元に沿ったクエリ自己相似性の度合いによって説明できることが明らかとなった。
予測可能なパターンに着目し,クエリ,キー,ロータリー位置埋め込み(RoPE)の併用による3つの代表的な事例の詳細な数学的解析を行う。
我々は、その洞察をKVキャッシュ圧縮とLLMプルーニングタスクに適用することで、TAPPAを検証する。
これらのタスク全体で、TAPPAによって動機付けられた単純なメトリックは、ベースラインメソッドよりもパフォーマンスを一貫して改善します。
コードはhttps://github.com/MIRALab-USTC/LLM-TAPPAで公開されている。
関連論文リスト
- A Self-explainable Model of Long Time Series by Extracting Informative Structured Causal Patterns [22.54910673667678]
本稿では,解釈可能な時系列モデリングのための統合フレームワークEXCAPを提案する。
EXCAPは時間とともにスムーズで安定した説明を提供し、因果マスクの摂動に頑健であることを示す。
これらの結果から、EXCAPは、医療や金融といった高額な領域に関係した、時系列の解釈可能なモデリングに対して、原則的かつスケーラブルなアプローチを提供することを示している。
論文 参考訳(メタデータ) (2025-12-01T08:33:33Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Learning Multi-graph Structure for Temporal Knowledge Graph Reasoning [3.3571415078869955]
本稿では,LMS(Learning Multi-graph Structure)に着目した革新的な推論手法を提案する。
LMSは、タイムスタンプに沿って効果的にエンティティ表現をマージするための適応ゲートを組み込んでいる。
また、タイムスタンプのセマンティクスをグラフアテンション計算や時間認識デコーダに統合する。
論文 参考訳(メタデータ) (2023-12-04T08:23:09Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。