論文の概要: Pause-Tuning for Long-Context Comprehension: A Lightweight Approach to LLM Attention Recalibration
- arxiv url: http://arxiv.org/abs/2502.20405v1
- Date: Sat, 01 Feb 2025 21:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 05:41:58.424396
- Title: Pause-Tuning for Long-Context Comprehension: A Lightweight Approach to LLM Attention Recalibration
- Title(参考訳): 長期的理解のためのポーズ調整:LLM注意再校正への軽量アプローチ
- Authors: James Begin, Namit Agrawal, Eshan Singh, Yicheng Fu, Sean O'Brien, Vasu Sharma, Kevin Zhu,
- Abstract要約: 本稿では,長文入力の理解を深めるために注意を喚起する手法である停止チューニングを導入する。
提案手法では,ポーズトークンを人工的に挿入したデータセット上での言語モデルを微調整する。
本稿では,Needle-in-a-Haystackベンチマークを用いて,代替手法に対する停止チューニングを評価する。
- 参考スコア(独自算出の注目度): 4.7429246847107835
- License:
- Abstract: LLMs have demonstrated remarkable proficiency in understanding tasks but continue to struggle with long-context comprehension, particularly with content located in the middle of extensive inputs. This limitation, known as the Lost-in-the-Middle (LITM) problem, hinders models from fully processing and utilizing information across lengthy contexts. To address this issue, we introduce pause-tuning, a technique that redistributes attention to enhance comprehension of long-context inputs. Our approach involves fine-tuning language models on datasets with artificially inserted pause tokens, which serve to segment the input into smaller, more manageable parts. We evaluate pause-tuning against alternative approaches using the Needle-in-a-Haystack benchmark, where models must retrieve information embedded within contexts of up to 128K tokens. Experimental results demonstrate significant performance gains, with the LLaMA 3.2 3B Instruct model and the LLaMA 3.1 8B Instruct model improving by 10.61% and 3.57% respectively on average, suggesting that pause-tuning successfully enhances attention redistribution and improves long-context retention. The code and data are available at https://anonymous.4open.science/r/LITM-PauseTokens-7357.
- Abstract(参考訳): LLMは、タスクを理解するのに顕著な習熟度を示してきたが、特に広範囲な入力の中間に位置するコンテンツにおいて、長いコンテキストの理解に苦慮し続けている。
LITM(Lost-in-the-Middle)問題として知られるこの制限は、モデルを完全な処理から妨げ、長いコンテキストにまたがる情報を活用することを妨げている。
この問題に対処するために、長文入力の理解を深めるために注意を喚起する手法である停止チューニングを導入する。
我々のアプローチでは、ポーズトークンを人工的に挿入したデータセット上で言語モデルを微調整することで、入力をより小さく、より管理しやすい部分に分割する。
Needle-in-a-Haystackベンチマークを用いて、最大128Kトークンのコンテキスト内に埋め込まれた情報をモデルが取得しなければならない他のアプローチに対する停止調整を評価する。
実験の結果、LLaMA 3.2 3BインストラクトモデルとLLaMA 3.1 8Bインストラクトモデルをそれぞれ平均10.61%、3.57%改善し、一時停止チューニングにより注意再分配が向上し、長期保存が改善された。
コードとデータはhttps://anonymous.4open.science/r/LITM-PauseTokens-7357で公開されている。
関連論文リスト
- InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
最近の大規模言語モデル(LLM)は、128Kから1Mトークンのコンテキストをサポートする。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12の人気のあるLCMを評価した。
短いコンテキストではうまく機能するが、コンテキストの長さが増加するにつれてパフォーマンスは著しく低下する。
論文 参考訳(メタデータ) (2025-02-07T18:49:46Z) - Knowing When to Stop: Dynamic Context Cutoff for Large Language Models [5.800837821046764]
大規模言語モデル(LLM)は、クエリに応答するために必要な情報がコンテキスト内にローカライズされる場合、入力コンテキスト全体を無差別に処理する。
タスク関連情報を取得する際に, LLM が自己決定処理を行えるようなヒューマンインスピレーション付き手法である動的コンテキストカットオフを提案する。
論文 参考訳(メタデータ) (2025-02-03T03:38:29Z) - Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。
長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。
次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文 参考訳(メタデータ) (2024-11-08T19:27:42Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。
継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。
我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-09-07T09:28:55Z) - ReAttention: Training-Free Infinite Context with Finite Attention Scope [65.91272939057592]
LLM(Large Language Models)の長期コンテキスト能力は大きなブレークスルーをもたらしたが、サポート対象の最大コンテキスト長は、実用的アプリケーションを制限する重要なボトルネックのままである。
本稿では,bftextReAttentionを提案する。bftextReAttentionは,自己アテンション機構をベースとしたLLMが,十分なメモリリソースの下で有限の注意範囲を持つ無限コンテキストをサポート可能な学習自由な手法である。
本稿では,LongBench,L-Eval,InfiniteBenchにおけるReAttentionの性能を検証し,従来の手法と同等であることを示す。
論文 参考訳(メタデータ) (2024-07-21T14:23:37Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。