論文の概要: LongAlign: A Recipe for Long Context Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.18058v1
- Date: Wed, 31 Jan 2024 18:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:27:55.716809
- Title: LongAlign: A Recipe for Long Context Alignment of Large Language Models
- Title(参考訳): LongAlign: 大規模言語モデルの長いコンテキストアライメントのためのレシピ
- Authors: Yushi Bai, Xin Lv, Jiajie Zhang, Yuze He, Ji Qi, Lei Hou, Jie Tang,
Yuxiao Dong, Juanzi Li
- Abstract要約: LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
- 参考スコア(独自算出の注目度): 61.85923382850057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending large language models to effectively handle long contexts requires
instruction fine-tuning on input sequences of similar length. To address this,
we present LongAlign -- a recipe of the instruction data, training, and
evaluation for long context alignment. First, we construct a long
instruction-following dataset using Self-Instruct. To ensure the data
diversity, it covers a broad range of tasks from various long context sources.
Second, we adopt the packing and sorted batching strategies to speed up
supervised fine-tuning on data with varied length distributions. Additionally,
we develop a loss weighting method to balance the contribution to the loss
across different sequences during packing training. Third, we introduce the
LongBench-Chat benchmark for evaluating instruction-following capabilities on
queries of 10k-100k in length. Experiments show that LongAlign outperforms
existing recipes for LLMs in long context tasks by up to 30\%, while also
maintaining their proficiency in handling short, generic tasks. The code, data,
and long-aligned models are open-sourced at https://github.com/THUDM/LongAlign.
- Abstract(参考訳): 長いコンテキストを効果的に扱うために大きな言語モデルを拡張するには、同じ長さの入力シーケンスを微調整する必要がある。
これに対処するため、長いコンテキストアライメントのための命令データ、トレーニング、評価のレシピであるLongAlignを紹介します。
まず,Self-Instructを用いて長い指示追従データセットを構築する。
データ多様性を保証するため、様々な長いコンテキストソースから幅広いタスクをカバーしている。
第2に,パッキングとソートによるバッチ戦略を採用し,長さ分布の異なるデータに対する教師あり微調整を高速化する。
さらに,パッキングトレーニング中に異なるシーケンスにまたがる損失に対する貢献のバランスをとるための損失重み付け手法を開発した。
第3に,10k-100kのクエリに対して命令追従能力を評価するためのLongBench-Chatベンチマークを提案する。
実験によると、LongAlignはLLMの既存のレシピを最大30倍の性能で上回り、同時に短い汎用的なタスクを扱う能力も維持している。
コード、データ、ロングアラインモデルはhttps://github.com/THUDM/LongAlign.comでオープンソース化されている。
関連論文リスト
- LongHeads: Multi-Head Attention is Secretly a Long Context Processor [51.28378481070993]
LongHeadsは、大規模な言語モデルの長いコンテキスト能力を強化する、トレーニング不要のフレームワークである。
それぞれの頭が全文に参加できるようにする代わりに、各頭がコンテキストチャンクを選択して参加することで、分配長を処理できるようにします。
LongHeadsは線形時間で効率的に動作し、相対的な位置エンコーディングを使用する多くのLCMとシームレスに適合する。
論文 参考訳(メタデータ) (2024-02-16T13:39:34Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - LongQLoRA: Efficient and Effective Method to Extend Context Length of
Large Language Models [2.4366811507669124]
LongQLoRAは、トレーニングリソースの少ない大規模言語モデルのコンテキスト長を拡張する方法である。
単一の32GB V100 GPUを使用すると、LongQLoRAはLLaMA2 7Bと13Bのコンテキスト長を4096年から8192、1000ステップ以内の12kにまで拡張することができる。
LongQLoRAはPG19とProof-Pileデータセット上での競合パープレキシティパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-08T18:33:06Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding [59.623007535233]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文 参考訳(メタデータ) (2023-08-21T17:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。