論文の概要: Never Miss A Beat: An Efficient Recipe for Context Window Extension of Large Language Models with Consistent "Middle" Enhancement
- arxiv url: http://arxiv.org/abs/2406.07138v1
- Date: Tue, 11 Jun 2024 10:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:25:09.128243
- Title: Never Miss A Beat: An Efficient Recipe for Context Window Extension of Large Language Models with Consistent "Middle" Enhancement
- Title(参考訳): Never Miss a Beat: 一貫性のある"ミドル"拡張付き大規模言語モデルのコンテキストウィンドウ拡張のための効率的なレシピ
- Authors: Tong Wu, Yanpeng Zhao, Zilong Zheng,
- Abstract要約: 位置インデクスを操作することで位置エンコーディングを補間する、$textbfC$ontinuity-$textbfR$elativity ind$textbfE$xing with g$textbfA$ussian $textbfM$iddle (CREAM)を提案する。
実験の結果、CREAM は Base 版と Chat 版の $textttLlama2-7B$ with Never Miss A Beat' で LLM をターゲット長まで拡張することができた。
- 参考スコア(独自算出の注目度): 25.20222970947923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, many methods have been developed to extend the context length of pre-trained large language models (LLMs), but they often require fine-tuning at the target length ($\gg4K$) and struggle to effectively utilize information from the middle part of the context. To address these issues, we propose $\textbf{C}$ontinuity-$\textbf{R}$elativity ind$\textbf{E}$xing with g$\textbf{A}$ussian $\textbf{M}$iddle (CREAM), which interpolates positional encodings by manipulating position indices. Apart from being simple, CREAM is training-efficient: it only requires fine-tuning at the pre-trained context window (eg, Llama 2-4K) and can extend LLMs to a much longer target context length (eg, 256K). To ensure that the model focuses more on the information in the middle, we introduce a truncated Gaussian to encourage sampling from the middle part of the context during fine-tuning, thus alleviating the ``Lost-in-the-Middle'' problem faced by long-context LLMs. Experimental results show that CREAM successfully extends LLMs to the target length for both Base and Chat versions of $\texttt{Llama2-7B}$ with ``Never Miss A Beat''. Our code will be publicly available soon.
- Abstract(参考訳): 近年,事前訓練された大規模言語モデル (LLM) の文脈長を拡張する手法が数多く開発されているが,ターゲット長($\gg4K$)での微調整や,コンテキストの中央からの情報を有効に活用するのに苦労することが多い。
これらの問題に対処するために、$\textbf{C}$ontinuity-$\textbf{R}$elativity ind$\textbf{E}$xing with g$\textbf{A}$ussian $\textbf{M}$iddle (CREAM)を提案する。
単純なこと以外は、CREAMはトレーニング効率が良く、事前訓練されたコンテキストウィンドウ(Llama 2-4Kなど)での微調整しか必要とせず、LLMをもっと長いターゲットコンテキスト長(例えば256K)まで拡張できる。
モデルが中間の情報をより重視することを保証するため、細調整中のコンテキストの中間部分からのサンプリングを促進するために、長いコンテキストのLLMに直面する ``Lost-in-the-Middle''' 問題を緩和するために、切り詰められたガウス的手法を導入する。
実験の結果,CREAM は ``Never Miss A Beat'' で $\texttt{Llama2-7B}$ の Base 版と Chat 版の LLM をターゲット長に拡張することができた。
私たちのコードはまもなく公開されます。
関連論文リスト
- FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z) - LeanContext: Cost-Efficient Domain-Specific Question Answering Using
LLMs [1.9468358338146958]
質問応答(QA)は大規模言語モデル(LLM)の重要な応用である
本稿では、人間指向の要約からAIモデルフレンドリーな要約へ移行する。
当社のアプローチであるLeanContextは、クエリと密接に一致したコンテキストから、$k$キー文を効率的に抽出します。
論文 参考訳(メタデータ) (2023-09-02T06:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。