論文の概要: Uncovering the Role of Initial Saliency in U-Shaped Attention Bias: Scaling Initial Token Weight for Enhanced Long-Text Processing
- arxiv url: http://arxiv.org/abs/2512.13109v1
- Date: Mon, 15 Dec 2025 09:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.595374
- Title: Uncovering the Role of Initial Saliency in U-Shaped Attention Bias: Scaling Initial Token Weight for Enhanced Long-Text Processing
- Title(参考訳): U字型注意バイアスにおける初期塩分濃度の役割の解明 : 拡張長文処理のための初期トークン重量のスケーリング
- Authors: Zewen Qiang, Sendong Zhao, Haochun Wang, Bing Qin, Ting Liu,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて強い性能を示している。
しかし、ミドル現象が失われたため、長文配列に苦しむことが多い。
この問題は、テキストの開始と終了に注意が集中するU字型の注意バイアスが原因であることが示されている。
- 参考スコア(独自算出の注目度): 39.934823979690265
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong performance on a variety of natural language processing (NLP) tasks. However, they often struggle with long-text sequences due to the ``lost in the middle'' phenomenon. This issue has been shown to arise from a U-shaped attention bias, where attention is disproportionately focused on the beginning and end of a text, leaving the middle section underrepresented. While previous studies have attributed this bias to position encoding, our research first identifies an additional factor: initial saliency. It means that in the attention computation for each token, tokens with higher attention weights relative to the initial token tend to receive more attention in the prediction of the next token. We further find that utilizing this property by scaling attention weight between the initial token and others improves the model's ability to process long contexts, achieving a maximum improvement of 3.6\% in MDQA dataset. Moreover, combining this approach with existing methods to reduce position encoding bias further enhances performance, achieving a maximum improvement of 3.4\% in KV-Retrieval tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて強い性能を示している。
しかし、「中」現象のために長文列に苦しむことが多い。
この問題は、テキストの開始と終了に注意が不均等に集中しているU字型の注意バイアスから発生し、中間部が不足していることが示されている。
これまでの研究では、このバイアスは位置エンコーディングによるものと考えられていましたが、私たちの研究はまず、最初のサリエンシ(英語版)という別の要因を特定しました。
これは、各トークンに対する注意計算において、初期トークンに対する高い注意重みを持つトークンは、次のトークンの予測においてより多くの注意を受ける傾向があることを意味する。
さらに、初期トークンと他のトークンとの間の注意重みを拡大することにより、この特性を利用することで、MDQAデータセットの最大3.6\%の改善が達成される。
さらに、この手法と既存の方法で位置符号化バイアスを低減し、KV-Retrievalタスクにおいて最大3.4\%の改善を実現することで、パフォーマンスをさらに向上させる。
関連論文リスト
- SAGE: Segment-Aware Gloss-Free Encoding for Token-Efficient Sign Language Translation [29.79050316749927]
本稿では,連続映像を個別のサインインされた視覚トークンに変換するためのセグメント認識型視覚トークン化フレームワークを提案する。
これにより、以前の方法と比較して入力シーケンスの長さが最大50%減少し、メモリ使用量が最大2.67倍になる。
提案手法はPHOENIX14Tベンチマークにおける最先端手法の性能を上回っている。
論文 参考訳(メタデータ) (2025-07-12T12:18:34Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Learning to Attribute with Attention [75.61481181755744]
本稿では,異なる注目頭部の注意重みを特徴として扱うことを提案する。
このようにして、属性に注意重みを効果的に活用する方法を学ぶことができる。
提案手法であるAtribution with Attention (AT2) は,多くのアブリケーションを含むアプローチと確実に同等に機能する。
論文 参考訳(メタデータ) (2025-04-18T15:36:28Z) - Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
本稿では,2段階のプロセスとして注目する新しい設計原則を提案する。
第一段階では、標準指数関数をより数値的に安定なソフトプラス活性化に置き換える。
第2段階では、注意分布を鋭くする再重み付け機構を導入する。
論文 参考訳(メタデータ) (2025-01-23T07:21:08Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization [97.84156490765457]
大規模言語モデル(LLM)は、入力の中央に位置する関連する情報を取得するのに苦労する。
この現象はミドル・イン・ザ・ミドル問題として知られている。
また,中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級健常者を対象に,長期にわたる中級中級中級中級中級健常者を対象とした。
論文 参考訳(メタデータ) (2024-06-23T04:35:42Z) - Modeling Concentrated Cross-Attention for Neural Machine Translation
with Gaussian Mixture Model [6.487736084189248]
クロスアテンションはニューラルマシン翻訳(NMT)の重要な構成要素である
本研究では,ガウス混合モデル(GMM)を用いて,横断的注意の集中度をモデル化する。
論文 参考訳(メタデータ) (2021-09-11T10:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。