論文の概要: Structured Packing in LLM Training Improves Long Context Utilization
- arxiv url: http://arxiv.org/abs/2312.17296v7
- Date: Mon, 24 Jun 2024 16:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 02:32:50.657526
- Title: Structured Packing in LLM Training Improves Long Context Utilization
- Title(参考訳): LLMトレーニングにおける構造化パッケージングによる長期利用の改善
- Authors: Konrad Staniszewski, Szymon Tworkowski, Sebastian Jaszczur, Yu Zhao, Henryk Michalewski, Łukasz Kuciński, Piotr Miłoś,
- Abstract要約: 本研究では,意味的相互依存を高めるための学習データの構造化について検討する。
本研究では,SPLiCe(Structured Packing for Long Context)法を提案する。
我々はSPLiCeを様々なサイズのモデルで実証的に検証した。
- 参考スコア(独自算出の注目度): 11.484631908171465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in long-context large language models have attracted significant attention, yet their practical applications often suffer from suboptimal context utilization. This study investigates structuring training data to enhance semantic interdependence, demonstrating that this approach effectively improves context utilization. To this end, we introduce the Structured Packing for Long Context (SPLiCe) method, which utilizes retrieval to collate mutually relevant documents into long and coherent training examples. We validate SPLiCe empirically across models of varying sizes -- 3B, 7B, and 13B -- achieving improved performance in long-context tasks, such as Qasper and HotpotQA. Remarkably, even brief fine-tuning with SPLiCe is sufficient to realize these benefits. Additionally, SPLiCe effectively mitigates the lost-in-middle phenomenon often observed in large models. Our comprehensive analysis of SPLiCe explores its design choices and reveals intriguing transfer effects; for instance, training on programming code enhances performance on natural language tasks.
- Abstract(参考訳): 近年の長文大言語モデルの進歩は注目されているが、それらの実践的応用は、しばしば最適でない文脈利用に悩まされている。
本研究では,意味的相互依存を高めるための学習データの構造化について検討し,この手法が文脈利用を効果的に改善することを示す。
この目的のために,検索を利用して相互に関連のある文書を長く一貫性のあるトレーニング例に照合するSPLiCe(Structured Packing for Long Context)手法を提案する。
QasperやHotpotQAといった長文タスクにおいて,SPLiCeを3B,7B,13Bのモデルで実証的に検証し,性能改善を実現した。
注目すべきは、SPLiCeによる簡単な微調整でさえ、これらの利点を実現するのに十分です。
さらに、SPLiCeは大きなモデルでよく見られる中途半端現象を効果的に緩和する。
SPLiCeの包括的分析では、設計選択を探索し、例えば、プログラミングコードのトレーニングによって自然言語タスクのパフォーマンスが向上するなど、興味深いトランスファー効果を明らかにしている。
関連論文リスト
- Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。
長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。
次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文 参考訳(メタデータ) (2024-11-08T19:27:42Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。
継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。
我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-09-07T09:28:55Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。