論文の概要: LongHeads: Multi-Head Attention is Secretly a Long Context Processor
- arxiv url: http://arxiv.org/abs/2402.10685v1
- Date: Fri, 16 Feb 2024 13:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:02:41.554244
- Title: LongHeads: Multi-Head Attention is Secretly a Long Context Processor
- Title(参考訳): LongHeads:マルチヘッドアテンションは秘密裏に長いコンテキストプロセッサ
- Authors: Yi Lu, Xin Zhou, Wei He, Jun Zhao, Tao Ji, Tao Gui, Qi Zhang, Xuanjing
Huang
- Abstract要約: LongHeadsは、大規模な言語モデルの長いコンテキスト能力を強化する、トレーニング不要のフレームワークである。
それぞれの頭が全文に参加できるようにする代わりに、各頭がコンテキストチャンクを選択して参加することで、分配長を処理できるようにします。
LongHeadsは線形時間で効率的に動作し、相対的な位置エンコーディングを使用する多くのLCMとシームレスに適合する。
- 参考スコア(独自算出の注目度): 51.28378481070993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved impressive performance in numerous
domains but often struggle to process lengthy inputs effectively and
efficiently due to limited length generalization and attention's quadratic
computational demands. Many sought to mitigate this by restricting the
attention window within the pre-trained length. However, these methods
introduce new issues such as ignoring the middle context and requiring
additional training. To address these problems, we propose LongHeads, a
training-free framework that enhances LLM's long context ability by unlocking
multi-head attention's untapped potential. Instead of allowing each head to
attend to the full sentence, which struggles with generalizing to longer
sequences due to out-of-distribution (OOD) issues, we allow each head to
process in-distribution length by selecting and attending to important context
chunks. To this end, we propose a chunk selection strategy that relies on the
inherent correlation between the query and the key representations, efficiently
distributing context chunks to different heads. In this way, each head ensures
it can effectively process attended tokens within the trained length, while
different heads in different layers can collectively process longer contexts.
LongHeads works efficiently in linear time, fits seamlessly with many LLMs that
use relative positional encoding. Our extensive empirical analyses verify
LongHeads's efficacy in extending the usable context window for existing
models, showcasing its promise for enhancing long text understanding.
- Abstract(参考訳): 大規模言語モデル(llm)は多くの領域で印象的な性能を発揮しているが、長大な入力を効果的かつ効率的に処理するのに苦労することが多い。
多くの者は、事前訓練された長さ内の注意窓を制限することでこれを緩和しようとした。
しかし、これらの手法は、中間の文脈を無視し、追加のトレーニングを必要とするなど、新しい問題をもたらす。
そこで本研究では,マルチヘッド・アテンションの未解決ポテンシャルを解き放つことで,llmの長文文脈能力を向上させるトレーニングフリー・フレームワークであるlongheadsを提案する。
オフ・オブ・ディストリビューション(OOD)問題による長いシーケンスの一般化に苦慮する全文に各頭が参加できるようにする代わりに、重要なコンテキストチャンクを選択して参加することで、各頭がイン・ディストリビューション長を処理できるようにする。
そこで本研究では,クエリとキー表現との間に固有の相関関係を生かして,コンテキストチャンクを異なるヘッドに効率的に分散するチャンク選択戦略を提案する。
このように、各ヘッドはトレーニングされた長さ内で出席トークンを効果的に処理し、異なるレイヤ内の異なるヘッドは、集合的に長いコンテキストを処理することができる。
LongHeadsは線形時間で効率的に動作し、相対的な位置エンコーディングを使用する多くのLCMとシームレスに適合する。
実験により,LongHeadsが既存モデルのコンテキストウインドウの拡張に有効であることを検証し,長文理解の強化を約束することを示す。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - FocusLLM: Scaling LLM's Context by Parallel Decoding [16.642675785000176]
FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。
FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。
ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
論文 参考訳(メタデータ) (2024-08-21T16:11:59Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。