論文の概要: Giraffe: Adventures in Expanding Context Lengths in LLMs
- arxiv url: http://arxiv.org/abs/2308.10882v1
- Date: Mon, 21 Aug 2023 17:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 12:31:20.517977
- Title: Giraffe: Adventures in Expanding Context Lengths in LLMs
- Title(参考訳): Giraffe: LLMのコンテキスト長を拡大するアドベンチャー
- Authors: Arka Pal, Deep Karkhanis, Manley Roberts, Samuel Dooley, Arvind
Sundararajan, Siddartha Naidu
- Abstract要約: 線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
- 参考スコア(独自算出の注目度): 7.8327063299618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) that rely on attention mechanisms are
typically trained with fixed context lengths which enforce upper limits on the
length of input sequences that they can handle at evaluation time. To use these
models on sequences longer than the train-time context length, one might employ
techniques from the growing family of context length extrapolation methods --
most of which focus on modifying the system of positional encodings used in the
attention mechanism to indicate where tokens or activations are located in the
input sequence. We conduct a wide survey of existing methods of context length
extrapolation on a base LLaMA or LLaMA 2 model, and introduce some of our own
design as well -- in particular, a new truncation strategy for modifying the
basis for the position encoding.
We test these methods using three new evaluation tasks (FreeFormQA,
AlteredNumericQA, and LongChat-Lines) as well as perplexity, which we find to
be less fine-grained as a measure of long context performance of LLMs. We
release the three tasks publicly as datasets on HuggingFace. We discover that
linear scaling is the best method for extending context length, and show that
further gains can be achieved by using longer scales at evaluation time. We
also discover promising extrapolation capabilities in the truncated basis. To
support further research in this area, we release three new 13B parameter
long-context models which we call Giraffe: 4k and 16k context models trained
from base LLaMA-13B, and a 32k context model trained from base LLaMA2-13B. We
also release the code to replicate our results.
- Abstract(参考訳): 注意機構に依存する現代の大規模言語モデル(LLM)は、一般に、評価時に処理できる入力シーケンスの長さに上限を課す固定されたコンテキスト長で訓練される。
これらのモデルを列車時コンテキスト長よりも長いシーケンスで使用するには、コンテキスト長の外挿法(主に注意機構で使用される位置エンコーディングのシステムを変更して、トークンやアクティベーションが入力シーケンスにどこにあるかを示すことに焦点を当てる)の家族の技法を用いる。
我々は,LLaMAモデルやLLaMA 2モデル上で既存の文脈長外挿法を広範囲に調査し,位置符号化の基盤を変更するための新たなトランケーション戦略を,我々の設計にも導入する。
我々はこれらの手法を3つの新しい評価タスク(FreeFormQA,AlteredNumericQA,LongChat-Lines)とパープレキシティ(perplexity)を用いて検証した。
私たちは3つのタスクをHuggingFaceのデータセットとして公開しています。
線形スケーリングは文脈長を拡張するための最良の手法であり,評価時に長いスケールを用いることで,さらなる利得が得られることを示す。
我々はまた、有望な外挿能力を発見した。
この領域のさらなる研究を支援するために、Giraffeと呼ばれる3つの新しい13Bパラメータ長コンテキストモデル:ベースLLaMA-13Bからトレーニングされた4kと16kコンテキストモデル、ベースLLaMA2-13Bからトレーニングされた32kコンテキストモデルをリリースする。
結果を複製するコードもリリースしています。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。
HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。
また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文 参考訳(メタデータ) (2024-09-24T15:38:11Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - XL3M: A Training-free Framework for LLM Length Extension Based on Segment-wise Inference [25.669630896777484]
本稿では,XL3Mと命名された効率的な学習自由フレームワークを提案する。これにより,短時間で訓練されたLLMが,それ以上のトレーニングや微調整を行なわずに極めて長いシーケンスを推論できる。
総合的なベンチマークによる評価は、XL3Mの優位性を示している。
論文 参考訳(メタデータ) (2024-05-28T02:12:35Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。