論文の概要: MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning
- arxiv url: http://arxiv.org/abs/2505.01110v1
- Date: Fri, 02 May 2025 08:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.970729
- Title: MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning
- Title(参考訳): MateICL:大規模インコンテキスト学習における注意分散の軽減
- Authors: Murtadha Ahmed, Wenbo, Liu yunfeng,
- Abstract要約: 大規模ICL(MateICL)における注意分散の緩和について紹介する。
ICLの性能向上のために,MateICLはより大規模なコンテキストを効果的に活用できることを示す。
推論戦略の進歩にもかかわらず,MateICLは計算資源に制約のある環境でも有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in In-Context Learning (ICL). However, the fixed position length constraints in pre-trained models limit the number of demonstration examples. Recent efforts to extend context suffer from attention dispersion as the number of demonstrations increases. In this paper, we introduce Mitigating Attention Dispersion in large-scale ICL (MateICL) that enables LLMs to maintain effective self-attention as the context size grows. We first split the context into multiple windows, each filled to the model's context capacity, which are processed separately. Then, we introduce an additional layer to recalibrate the attention weights, prioritizing the query tokens as the number of demonstrations increases. Our empirical results show that MateICL can effectively leverage larger contexts to improve ICL performance. Compared to retrieval-based baselines, MateICL consistently achieves better performance without requiring an externally trained retrieval model. Despite recent advances in inference strategies (e.g., 32k token contexts), our results demonstrate that MateICL remains beneficial in computationally resource-constrained settings. The code is publicly available at https://github.com/amurtadha/MateICL.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)において顕著な能力を示した。
しかし、事前訓練されたモデルにおける固定位置長制約は、実演例の数を制限する。
実演数の増加に伴い,近年の文脈拡張への取り組みは注意分散に悩まされている。
本稿では, 大規模ICL (MateICL) において, LLM がコンテキストサイズが大きくなるにつれて, 自己意識を効果的に維持できるミティゲーティング・アテンション・ディスペレーションを導入する。
まず、コンテキストを複数のウィンドウに分割し、それぞれがモデルのコンテキストキャパシティに満たされ、別々に処理されます。
次に、注意重みを補正する追加レイヤを導入し、デモの数が増えるにつれてクエリトークンを優先順位付けする。
実験結果から,MateICLはより大きなコンテキストを効果的に活用し,ICLの性能を向上できることが示された。
検索ベースラインと比較して、MateICLは外部訓練された検索モデルを必要とせずに、常により良い性能を達成する。
近年の推論戦略(例:32kトークンコンテキスト)の進歩にもかかわらず,MateICLは計算資源に制約のある環境でも有用であることを示す。
コードはhttps://github.com/amurtadha/MateICL.comで公開されている。
関連論文リスト
- LLMs Are In-Context Bandit Reinforcement Learners [30.192422586838997]
大規模言語モデル(LLMs)は、モデルコンテキストに注釈付きサンプルを追加することに依存する教師付き学習技術であるICL(In-context Learning)で優れている。
そこで本研究では、教師付きデータではなく、外部報酬からオンラインのコンテキスト内学習を行うICRL(In-context reinforcement Learning)について検討する。
論文 参考訳(メタデータ) (2024-10-07T17:45:00Z) - In-Context Learning with Long-Context Models: An In-Depth Exploration [92.16922648612807]
大規模なラベル空間を持つ多くのデータセットでは、数千のデモでパフォーマンスが向上し続けています。
長文ICLは有効なツールであり,デモセットのエンコーディングに長文を必要としない可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-30T21:06:52Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Naive Bayes-based Context Extension for Large Language Models [2.743675474582704]
Naive Bayes-based Context Extension (NBCE) と呼ばれる新しいフレームワークを導入する。
NBCEは、既存のLarge Language Models (LLMs) がインコンテキストラーニング (ICL) を実行可能にする。
NBCEは、特に実演例の数が増えるにつれて、性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-26T09:59:45Z) - Not All Demonstration Examples are Equally Beneficial: Reweighting
Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。
本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。
8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-10-12T13:15:11Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。