論文の概要: Attention Basin: Why Contextual Position Matters in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.05128v1
- Date: Thu, 07 Aug 2025 08:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.755005
- Title: Attention Basin: Why Contextual Position Matters in Large Language Models
- Title(参考訳): 注意盆地:なぜ大規模言語モデルにおいて文脈的位置が重要なのか
- Authors: Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen,
- Abstract要約: モデルでは,シーケンスの開始と終了の項目に対して,中間の項目を無視しながら,より高い注意を体系的に割り当てることが示される。
AttnRank(AttnRank)は、モデル固有の位置的注目度を推定するフレームワークである。
AttnRankは、最小の計算オーバーヘッドを持つモデルに依存しない、トレーニングなし、プラグアンドプレイ方式である。
- 参考スコア(独自算出の注目度): 16.11590856103274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models (LLMs) is significantly sensitive to the contextual position of information in the input. To investigate the mechanism behind this positional bias, our extensive experiments reveal a consistent phenomenon we term the attention basin: when presented with a sequence of structured items (e.g., retrieved documents or few-shot examples), models systematically assign higher attention to the items at the beginning and end of the sequence, while neglecting those in the middle. Crucially, our analysis further reveals that allocating higher attention to critical information is key to enhancing model performance. Based on these insights, we introduce Attention-Driven Reranking (AttnRank), a two-stage framework that (i) estimates a model's intrinsic positional attention preferences using a small calibration set, and (ii) reorders retrieved documents or few-shot examples to align the most salient content with these high-attention positions. AttnRank is a model-agnostic, training-free, and plug-and-play method with minimal computational overhead. Experiments on multi-hop QA and few-shot in-context learning tasks demonstrate that AttnRank achieves substantial improvements across 10 large language models of varying architectures and scales, without modifying model parameters or training procedures.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は,入力中の情報の文脈的位置に非常に敏感である。
この位置バイアスのメカニズムを解明するために,本研究では,構造化された項目列(例えば,検索された文書や少数ショットの例)を提示した場合,中間の項目を無視しながら,配列の先頭と端の項目に高次注意を体系的に割り当てる,という一貫した現象を,我々の広範な実験により明らかにした。
さらに, 重要な情報に注意を向けることが, モデルの性能向上の鍵であることを, 分析により明らかにした。
これらの知見に基づいて、2段階のフレームワークであるAttnRank(AttnRank)を紹介します。
一 小さい校正セットを用いて、モデルの本質的な位置的注目度を推定し、
(二)回収した文書又は数点の事例を並べ替えて、これらの高い注意力のある位置と最も健全な内容の整合を図る。
AttnRankは、最小の計算オーバーヘッドを持つモデルに依存しない、トレーニングなし、プラグアンドプレイ方式である。
マルチホップQAと数ショットのインコンテキスト学習タスクの実験は、AttnRankがモデルパラメータやトレーニング手順を変更することなく、さまざまなアーキテクチャとスケールの10の大規模言語モデルに対して大幅な改善を達成していることを示している。
関連論文リスト
- Mechanistic Interpretability of GPT-like Models on Summarization Tasks [2.4022340214033915]
本稿では,GPTライクなモデルが要約タスクにどのように適応するかを解析するための解釈可能性フレームワークを提案する。
重要な変換を行う特定のレイヤとアテンションヘッドを識別することにより、モデルアーキテクチャ内の"要約回路"を見つける。
論文 参考訳(メタデータ) (2025-05-20T02:15:11Z) - Enhancing Unsupervised Graph Few-shot Learning via Set Functions and Optimal Transport [23.36436403062214]
グラフ数ショット学習モデルの最近の進歩は、様々なアプリケーションにまたがって優れた性能を示している。
本稿では,教師なしグラフ数ショット学習を強化するSTARという新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T00:42:27Z) - VSFormer: Value and Shape-Aware Transformer with Prior-Enhanced Self-Attention for Multivariate Time Series Classification [47.92529531621406]
識別パターン(形状)と数値情報(値)の両方を組み込んだVSFormerを提案する。
さらに、教師付き情報から派生したクラス固有の事前情報を抽出し、位置エンコーディングを強化する。
30のUEAアーカイブデータセットに対する大規模な実験は、SOTAモデルと比較して、我々の手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-21T07:31:22Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Do prompt positions really matter? [2.6379212441113213]
以上の結果から,モデル性能に対する実質的な影響を定量的に評価した。
先行研究で用いられるプロンプト位置は、しばしば準最適であり、この観測は広く使われている命令調整モデルにおいても一貫している。
論文 参考訳(メタデータ) (2023-05-23T19:45:45Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。