論文の概要: Breaking the Stage Barrier: A Novel Single-Stage Approach to Long Context Extension for Large Language Models
- arxiv url: http://arxiv.org/abs/2412.07171v1
- Date: Tue, 10 Dec 2024 04:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:44.740366
- Title: Breaking the Stage Barrier: A Novel Single-Stage Approach to Long Context Extension for Large Language Models
- Title(参考訳): ステージバリアを壊す:大規模言語モデルのための長期拡張のための新しい単一段階アプローチ
- Authors: Haoran Lian, Junmin Chen, Wei Huang, Yizhe Xiong, Wenping Hu, Guiguang Ding, Hui Chen, Jianwei Niu, Zijia Lin, Fuzheng Zhang, Di Zhang,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
現在、ロングコンテキストモデリングに対する解決策は、しばしば多段階連続体を用いる。
本稿では,新しい単段連続事前学習手法であるヘッドアダプティブロータリー位置について紹介する。
- 参考スコア(独自算出の注目度): 28.253786579346432
- License:
- Abstract: Recently, Large language models (LLMs) have revolutionized Natural Language Processing (NLP). Pretrained LLMs, due to limited training context size, struggle with handling long token sequences, limiting their performance on various downstream tasks. Current solutions toward long context modeling often employ multi-stage continual pertaining, which progressively increases the effective context length through several continual pretraining stages. However, those approaches require extensive manual tuning and human expertise. In this paper, we introduce a novel single-stage continual pretraining method, Head-Adaptive Rotary Position Encoding (HARPE), to equip LLMs with long context modeling capabilities while simplifying the training process. Our HARPE leverages different Rotary Position Encoding (RoPE) base frequency values across different attention heads and directly trains LLMs on the target context length. Extensive experiments on 4 language modeling benchmarks, including the latest RULER benchmark, demonstrate that HARPE excels in understanding and integrating long-context tasks with single-stage training, matching and even outperforming existing multi-stage methods. Our results highlight that HARPE successfully breaks the stage barrier for training LLMs with long context modeling capabilities.
- Abstract(参考訳): 近年,Large Language Model (LLM) は自然言語処理 (NLP) に革命をもたらした。
事前訓練されたLLMは、トレーニングコンテキストのサイズが制限されているため、長いトークンシーケンスの処理に苦労し、さまざまな下流タスクのパフォーマンスを制限している。
長期文脈モデリングへの現在の解決策は、しばしば多段階連続性を用いており、いくつかの連続事前学習段階を通じて有効文脈長を徐々に増加させる。
しかし、これらのアプローチには広範囲な手動チューニングと人間の専門知識が必要である。
本稿では,HARPE(Head-Adaptive Rotary Position Encoding)という,単一段階の連続事前学習手法を提案する。
我々のHARPEは、異なる注目ヘッドにまたがる異なる回転位置符号化(RoPE)ベース周波数値を活用し、ターゲットコンテキスト長のLSMを直接訓練する。
最新のRULERベンチマークを含む4つの言語モデリングベンチマークに関する大規模な実験は、HARPEが単一ステージのトレーニングやマッチング、さらには既存のマルチステージメソッドよりも優れた長文タスクの理解と統合に優れていることを実証している。
以上の結果から,HARPEは長期のコンテキストモデリング機能を備えたLDMのトレーニングにおいて,ステージバリアを破ることに成功していることがわかった。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。