論文の概要: Parallel Context Windows for Large Language Models
- arxiv url: http://arxiv.org/abs/2212.10947v3
- Date: Tue, 1 Aug 2023 16:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 18:08:16.137821
- Title: Parallel Context Windows for Large Language Models
- Title(参考訳): 大規模言語モデルのための並列コンテキストWindows
- Authors: Nir Ratner, Yoav Levine, Yonatan Belinkov, Ori Ram, Inbal Magar, Omri
Abend, Ehud Karpas, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham
- Abstract要約: 本稿では,PCW(Parallel Context Windows)について述べる。
本研究の主な成果は,7億5000万から1億7800億のパラメータのモデルを用いて,テキスト内学習におけるPCWアプローチを検証した。
長いコンテキストウインドウが有益であるかもしれない他の設定では、マルチホップ質問と検索強化質問が複数の検索された文書で答えられる。
- 参考スコア(独自算出の注目度): 52.965170346907904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When applied to processing long text, Large Language Models (LLMs) are
limited by their context window. Existing efforts to address this limitation
involve training specialized architectures, and cannot be easily applied to
off-the-shelf LLMs. We present Parallel Context Windows (PCW), a method that
alleviates the context window restriction for any off-the-shelf LLM without
further training. The key to the approach is to carve a long context into
chunks (``windows''), restrict the attention mechanism to apply only within
each window, and re-use the positional embeddings across the windows. Our main
results test the PCW approach on in-context learning with models that range in
size between 750 million and 178 billion parameters, and show substantial
improvements for tasks with diverse input and output spaces. We show additional
benefits in other settings where long context windows may be beneficial:
multi-hop questions and retrieval-augmented question answering with multiple
retrieved documents. Our results highlight Parallel Context Windows as a
promising method for applying off-the-shelf LLMs in a range of settings that
require long text sequences. We make our code publicly available at
https://github.com/ai21labs/parallel-context-windows.
- Abstract(参考訳): 長文処理に適用する場合、Large Language Models (LLM) はコンテキストウィンドウによって制限される。
この制限に対処するための既存の取り組みには、専門的なアーキテクチャのトレーニングが含まれており、既製のLLMに簡単に適用できない。
そこで本研究では,市販llmのコンテキストウインドウ制限を緩和する手法であるparallel context windows (pcw)を提案する。
このアプローチの鍵は、長いコンテキストをチャンクに彫り込み(``windows''')、各ウィンドウにのみ適用される注意機構を制限し、ウィンドウにまたがる位置埋め込みを再利用することだ。
本研究の主な成果は,7億7千万から1億7800億のパラメータを持つモデルを用いて,テキスト内学習におけるPCWアプローチを検証し,多様な入力空間と出力空間を持つタスクに対する大幅な改善を示す。
長いコンテキストウインドウが有益であるかもしれない他の設定では、マルチホップ質問と検索強化質問が複数の検索された文書で答えられる。
この結果から,Parallel Context Windows は,長いテキストシーケンスを必要とするさまざまな設定で既製の LLM を適用するための有望な方法として注目されている。
コードをhttps://github.com/ai21labs/parallel-context-windowsで公開しています。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - Exploring Context Window of Large Language Models via Decomposed Positional Vectors [107.19556541244654]
トランスフォーマーベースの大規模言語モデル(LLM)は通常、限られたコンテキストウィンドウを持つ。
本研究では,コンテキストウィンドウ内外の位置情報について検討する。
論文 参考訳(メタデータ) (2024-05-28T09:50:46Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。