Fugu-MT 論文翻訳(概要): E^2-LLM: Efficient and Extreme Length Extension of Large Language Models

論文の概要: E^2-LLM: Efficient and Extreme Length Extension of Large Language Models

arxiv url: http://arxiv.org/abs/2401.06951v2
Date: Thu, 18 Jan 2024 02:18:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 19:09:16.243335
Title: E^2-LLM: Efficient and Extreme Length Extension of Large Language Models
Title（参考訳）: E^2-LLM:大規模言語モデルの効率的・極長拡張
Authors: Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng
Abstract要約: 本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
参考スコア（独自算出の注目度）: 74.1254067728251
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. Existing long-context extension methods usually need additional training procedures to support corresponding long-context windows, where the long-context training data (e.g., 32k) is needed, and high GPU training costs are assumed. To address the aforementioned issues, we propose an Efficient and Extreme length extension method for Large Language Models, called E 2 -LLM, with only one training procedure and dramatically reduced computation cost, which also removes the need to collect long-context data. Concretely, first, the training data of our E 2 -LLM only requires a short length (e.g., 4k), which reduces the tuning cost greatly. Second, the training procedure on the short training context window is performed only once time, and we can support different evaluation context windows at inference. Third, in E 2 - LLM, based on RoPE position embeddings, we introduce two different augmentation methods on the scale and position index parameters for different samples in training. It aims to make the model more robust to the different relative differences when directly interpolating the arbitrary context length at inference. Comprehensive experimental results on multiple benchmark datasets demonstrate the effectiveness of our E 2 -LLM on challenging long-context tasks.
Abstract（参考訳）: 一般的に、長いコンテキストサイズでのllmのトレーニングは計算コストが高く、トレーニング時間とgpuリソースが必要となる。既存のロングコンテキスト拡張手法は、通常、対応するロングコンテキストウィンドウをサポートするために追加のトレーニング手順を必要とし、ロングコンテキストトレーニングデータ(例えば32k)が必要であり、GPUトレーニングコストが高いと仮定する。上記の問題に対処するため,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と計算コストを大幅に削減した効率的な拡張手法を提案する。具体的には、E2-LLMのトレーニングデータは短い長さ(例:4k)しか必要とせず、チューニングコストを大幅に削減する。第2に、短いトレーニングコンテキストウィンドウ上のトレーニング手順は一度だけ実行され、推論時に異なる評価コンテキストウィンドウをサポートすることができる。第3に,RoPE 位置埋め込みに基づく E2 - LLM において,異なるサンプルに対するスケールと位置指数パラメータに関する2つの異なる拡張手法を導入する。推論時に任意のコンテキスト長を直接補間する場合、モデルは異なる相対差に対してより堅牢になる。複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。

関連論文リスト

How to Train Your Long-Context Visual Document Model [0.0]
本研究は,344Kの文脈における長文視覚言語モデルの訓練に関する総合的かつ大規模な研究である。 MMLongBenchDocの両パラメータスケールに対する最先端性能を実現する。テキストから視覚への長いコンテキストの変換を逆に拡張し、視覚的長期のコンテキストのトレーニングが長いコンテキストのテキストのパフォーマンスに転送されることを示す。
論文参考訳（メタデータ） (2026-02-16T23:26:51Z)
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。データマイニングフレームワーク textbfProLong を提案する。複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文参考訳（メタデータ） (2024-05-28T07:36:56Z)
Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-05-21T22:26:01Z)
CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。 CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文参考訳（メタデータ） (2023-10-25T08:13:02Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)
PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。 PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。 2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文参考訳（メタデータ） (2023-09-19T08:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。