論文の概要: Why do LLMs attend to the first token?
- arxiv url: http://arxiv.org/abs/2504.02732v1
- Date: Thu, 03 Apr 2025 16:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:58.339625
- Title: Why do LLMs attend to the first token?
- Title(参考訳): LLMはなぜ最初のトークンに出席するのか?
- Authors: Federico Barbero, Álvaro Arroyo, Xiangming Gu, Christos Perivolaropoulos, Michael Bronstein, Petar Veličkovi ć, Razvan Pascanu,
- Abstract要約: 大規模言語モデル(LLM)は、シーケンスの最初のトークンに大きく関与する傾向があり、いわゆるアテンションシンクを生成する。
我々は、このメカニズムがLLMの過剰混合を回避する方法を提供すると理論的、実証的に主張する。
理論的直観を検証し、文脈長、深さ、データパッキングなどの選択がシンク行動にどのように影響するかを示す実験を行う。
- 参考スコア(独自算出の注目度): 15.479473648833158
- License:
- Abstract: Large Language Models (LLMs) tend to attend heavily to the first token in the sequence -- creating a so-called attention sink. Many works have studied this phenomenon in detail, proposing various ways to either leverage or alleviate it. Attention sinks have been connected to quantisation difficulties, security issues, and streaming attention. Yet, while many works have provided conditions in which they occur or not, a critical question remains shallowly answered: Why do LLMs learn such patterns and how are they being used? In this work, we argue theoretically and empirically that this mechanism provides a method for LLMs to avoid over-mixing, connecting this to existing lines of work that study mathematically how information propagates in Transformers. We conduct experiments to validate our theoretical intuitions and show how choices such as context length, depth, and data packing influence the sink behaviour. We hope that this study provides a new practical perspective on why attention sinks are useful in LLMs, leading to a better understanding of the attention patterns that form during training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シーケンスの最初のトークンに大きく関与する傾向があります。
多くの研究がこの現象を詳細に研究し、それを活用または緩和する様々な方法を提案している。
注意シンクは、定量化の困難、セキュリティの問題、ストリーミングの注意に関係している。
しかし、多くの作品がそれらが発生するか否かの条件を提供してきたが、重要な質問は依然として浅い答えである: なぜLLMはそのようなパターンを学習し、どのように使用されるのか?
本研究では,このメカニズムがLLMの過度な混合を回避するための方法であり,トランスフォーマーにおける情報の伝播を数学的に研究する既存の研究行と結び付けることを理論的・実証的に論じる。
理論的直観を検証し、文脈長、深さ、データパッキングなどの選択がシンク行動にどのように影響するかを示す実験を行う。
この研究は、LLMにおいて注意シンクが有用である理由について、新たな実践的な視点を提供し、トレーニング中に形成される注意パターンをより深く理解することを期待している。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models [7.115323364355489]
インコンテキスト学習(In-context learning)は、入力プロンプトのいくつかの例に基づいて適応する能力であり、大きな言語モデル(LLM)のユビキタスな特徴である。
最初に、Llamaが$70$Bで、コンテキスト内で単純なRL問題を解くことができることを示す。
次に、スパースオートエンコーダ(SAE)を用いてLlamaの残差ストリームを分析し、時間差(TD)誤差によく一致する表現を求める。
論文 参考訳(メタデータ) (2024-10-02T06:51:12Z) - AI Meets the Classroom: When Do Large Language Models Harm Learning? [0.0]
大規模言語モデル(LLM)が学習結果に与える影響は,利用行動に依存することを示す。
LLMは学習を改善する大きな可能性を示しているが、それらの使用は教育的な文脈に合わせて調整されなければならない。
論文 参考訳(メタデータ) (2024-08-29T17:07:46Z) - LLM-Generated Black-box Explanations Can Be Adversarially Helpful [16.49758711633611]
大規模言語モデル(LLM)は,デジタルアシスタントとして機能することで,複雑な問題の解決と理解を支援する。
私たちの研究は、このアプローチに結びついている隠れたリスクを明らかにします。
LLMの説明が間違った答えを正しく見せると、これは起こります。
論文 参考訳(メタデータ) (2024-05-10T20:23:46Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。