論文の概要: Structured Packing in LLM Training Improves Long Context Utilization
- arxiv url: http://arxiv.org/abs/2312.17296v1
- Date: Thu, 28 Dec 2023 16:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 15:14:07.668001
- Title: Structured Packing in LLM Training Improves Long Context Utilization
- Title(参考訳): LLMトレーニングにおける構造化パッケージングによる長期利用の改善
- Authors: Konrad Staniszewski, Szymon Tworkowski, Sebastian Jaszczur, Henryk
Michalewski, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s
- Abstract要約: 長期コンテキスト用構造化パッケージ(SPLiCe)について紹介する。
SPLiCeは、最も相互に関連のあるドキュメントを単一のトレーニングコンテキストに照合する検索手法を用いて、トレーニング例を作成する革新的な方法である。
我々は,大容量の3$Bモデルをトレーニングし,ダウンストリームタスクにおける難易度の改善と長文性能の向上を両立させた結果の有効性を検証した。
- 参考スコア(独自算出の注目度): 18.0779151699202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in long-context Large Language Models (LCLMs) have generated
significant interest, especially in applications such as querying scientific
research papers. However, their potential is often limited by inadequate
context utilization. We identify the absence of long-range semantic
dependencies in typical training data as a primary hindrance. To address this,
we delve into the benefits of frequently incorporating related documents into
training inputs. Using the inherent directory structure of code data as a
source of training examples, we demonstrate improvements in perplexity, even
for tasks unrelated to coding. Building on these findings, but with a broader
focus, we introduce Structured Packing for Long Context (SPLiCe). SPLiCe is an
innovative method for creating training examples by using a retrieval method to
collate the most mutually relevant documents into a single training context.
Our results indicate that \method{} enhances model performance and can be used
to train large models to utilize long contexts better. We validate our results
by training a large $3$B model, showing both perplexity improvements and better
long-context performance on downstream tasks.
- Abstract(参考訳): 長文Large Language Models(LCLM)の最近の進歩は、特に科学研究論文の問合せなどの応用において大きな関心を集めている。
しかし、その可能性はしばしば不適切な文脈利用によって制限される。
典型的なトレーニングデータに長期的セマンティック依存関係が欠如していることが主要な障害である。
これに対処するため、私たちは、関連するドキュメントをトレーニングインプットに頻繁に組み込むことの利点を考察します。
コードデータの固有ディレクトリ構造をトレーニング例のソースとして使用して,コーディングとは無関係なタスクであっても,難易度の改善を実証する。
これらの知見に基づいて,より広い焦点をあてた構造的パッキング(structured packing for long context, splice)を導入する。
SPLiCeは、最も相互に関連のあるドキュメントを単一のトレーニングコンテキストに照合する検索手法を用いて、トレーニング例を作成する革新的な方法である。
その結果、 \method{} はモデルの性能を高め、長いコンテキストをよりよく利用するために大きなモデルのトレーニングに使用できることがわかった。
我々は,大容量の3$Bモデルをトレーニングし,ダウンストリームタスクにおける難易度の改善と長文性能の向上を両立させた結果の有効性を検証した。
関連論文リスト
- Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。
トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。
推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文 参考訳(メタデータ) (2024-01-04T02:43:57Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。