論文の概要: Parallel Context Windows Improve In-Context Learning of Large Language
Models
- arxiv url: http://arxiv.org/abs/2212.10947v1
- Date: Wed, 21 Dec 2022 11:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:56:22.021743
- Title: Parallel Context Windows Improve In-Context Learning of Large Language
Models
- Title(参考訳): 並列コンテキスト Windows が大規模言語モデルのインコンテキスト学習を改善
- Authors: Nir Ratner, Yoav Levine, Yonatan Belinkov, Ori Ram, Omri Abend, Ehud
Karpas, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham
- Abstract要約: そこで本研究では,既製の大規模言語モデル (LLM) のコンテキストウィンドウ制限を,さらなるトレーニングなしで緩和する手法であるParallel Context Windows (PCW) を提案する。
我々は,7億5000万から1億7800億のパラメータを持つモデルを用いて,テキスト内学習におけるPCWアプローチを検証し,多様な入力空間と出力空間を持つタスクに対して大幅な改善を示す。
- 参考スコア(独自算出の注目度): 54.956972332651574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For applications that require processing large amounts of text at inference
time, Large Language Models (LLMs) are handicapped by their limited context
windows, which are typically 2048 tokens. In-context learning, an emergent
phenomenon in LLMs in sizes above a certain parameter threshold, constitutes
one significant example because it can only leverage training examples that fit
into the context window. Existing efforts to address the context window
limitation involve training specialized architectures, which tend to be smaller
than the sizes in which in-context learning manifests due to the memory
footprint of processing long texts. We present Parallel Context Windows (PCW),
a method that alleviates the context window restriction for any off-the-shelf
LLM without further training. The key to the approach is to carve a long
context into chunks (``windows'') that fit within the architecture, restrict
the attention mechanism to apply only within each window, and re-use the
positional embeddings among the windows. We test the PCW approach on in-context
learning with models that range in size between 750 million and 178 billion
parameters, and show substantial improvements for tasks with diverse input and
output spaces. Our results motivate further investigation of Parallel Context
Windows as a method for applying off-the-shelf LLMs in other settings that
require long text sequences.
- Abstract(参考訳): 推論時に大量のテキストを処理する必要があるアプリケーションでは、Large Language Models (LLM) は、通常2048トークンである限られたコンテキストウィンドウによって障害を受ける。
コンテキスト学習(In-context learning)は、あるパラメータしきい値を超えるサイズでLLMの創発的な現象であり、コンテキストウィンドウに適合するトレーニング例のみを活用することができるため、重要な例である。
コンテキストウィンドウの制限に対処するための既存の取り組みには、長いテキストを処理するメモリフットプリントによってコンテキスト内学習が現れるサイズよりも小さくなる特殊なアーキテクチャのトレーニングが含まれる。
そこで本研究では,市販llmのコンテキストウインドウ制限を緩和する手法であるparallel context windows (pcw)を提案する。
このアプローチの鍵は、長いコンテキストをアーキテクチャ内に収まるチャンク(``windows'')に彫り込み、各ウィンドウにのみ適用される注意機構を制限し、ウィンドウ間の位置埋め込みを再利用することだ。
我々は7億5000万から1億7800億のパラメータを持つモデルを用いて、文脈内学習におけるpcwアプローチをテストし、様々な入出力空間を持つタスクの大幅な改善を示す。
本研究は,LLMを長いテキストシーケンスを必要とする他の設定に適用するための手法として,Parallel Context Windowsのさらなる研究を動機付けている。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - Exploring Context Window of Large Language Models via Decomposed Positional Vectors [107.19556541244654]
トランスフォーマーベースの大規模言語モデル(LLM)は通常、限られたコンテキストウィンドウを持つ。
本研究では,コンテキストウィンドウ内外の位置情報について検討する。
論文 参考訳(メタデータ) (2024-05-28T09:50:46Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。