Fugu-MT 論文翻訳(概要): Structured Packing in LLM Training Improves Long Context Utilization

論文の概要: Structured Packing in LLM Training Improves Long Context Utilization

arxiv url: http://arxiv.org/abs/2312.17296v1
Date: Thu, 28 Dec 2023 16:25:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 15:14:07.668001
Title: Structured Packing in LLM Training Improves Long Context Utilization
Title（参考訳）: LLMトレーニングにおける構造化パッケージングによる長期利用の改善
Authors: Konrad Staniszewski, Szymon Tworkowski, Sebastian Jaszczur, Henryk Michalewski, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s
Abstract要約: 長期コンテキスト用構造化パッケージ(SPLiCe)について紹介する。 SPLiCeは、最も相互に関連のあるドキュメントを単一のトレーニングコンテキストに照合する検索手法を用いて、トレーニング例を作成する革新的な方法である。我々は,大容量の3$Bモデルをトレーニングし,ダウンストリームタスクにおける難易度の改善と長文性能の向上を両立させた結果の有効性を検証した。
参考スコア（独自算出の注目度）: 18.0779151699202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in long-context Large Language Models (LCLMs) have generated significant interest, especially in applications such as querying scientific research papers. However, their potential is often limited by inadequate context utilization. We identify the absence of long-range semantic dependencies in typical training data as a primary hindrance. To address this, we delve into the benefits of frequently incorporating related documents into training inputs. Using the inherent directory structure of code data as a source of training examples, we demonstrate improvements in perplexity, even for tasks unrelated to coding. Building on these findings, but with a broader focus, we introduce Structured Packing for Long Context (SPLiCe). SPLiCe is an innovative method for creating training examples by using a retrieval method to collate the most mutually relevant documents into a single training context. Our results indicate that \method{} enhances model performance and can be used to train large models to utilize long contexts better. We validate our results by training a large $3$B model, showing both perplexity improvements and better long-context performance on downstream tasks.
Abstract（参考訳）: 長文Large Language Models(LCLM)の最近の進歩は、特に科学研究論文の問合せなどの応用において大きな関心を集めている。しかし、その可能性はしばしば不適切な文脈利用によって制限される。典型的なトレーニングデータに長期的セマンティック依存関係が欠如していることが主要な障害である。これに対処するため、私たちは、関連するドキュメントをトレーニングインプットに頻繁に組み込むことの利点を考察します。コードデータの固有ディレクトリ構造をトレーニング例のソースとして使用して,コーディングとは無関係なタスクであっても,難易度の改善を実証する。これらの知見に基づいて,より広い焦点をあてた構造的パッキング(structured packing for long context, splice)を導入する。 SPLiCeは、最も相互に関連のあるドキュメントを単一のトレーニングコンテキストに照合する検索手法を用いて、トレーニング例を作成する革新的な方法である。その結果、 \method{} はモデルの性能を高め、長いコンテキストをよりよく利用するために大きなモデルのトレーニングに使用できることがわかった。我々は,大容量の3$Bモデルをトレーニングし,ダウンストリームタスクにおける難易度の改善と長文性能の向上を両立させた結果の有効性を検証した。

関連論文リスト

Long-Short Alignment for Effective Long-Context Modeling in LLMs [32.13785291956956]
大きな言語モデル(LLM)は、驚くべきパフォーマンスと驚くべき創発的な特性を示しています。長さの一般化 -- トレーニング中に見られるものよりも長いシーケンスに一般化する能力 -- は、古典的で基本的な問題である。 textbflong-shortアライメント -- 長さの異なるシーケンス間の出力分布の一貫性 -- の重要な役割を強調します。
論文参考訳（メタデータ） (2025-06-13T13:25:39Z)
Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文参考訳（メタデータ） (2025-06-06T05:40:39Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
SEAL: Scaling to Emphasize Attention for Long-Context Retrieval [9.446971590056945]
我々は、長期文脈検索(SEAL)における注意を強調するためのスケーリングと呼ばれる新しいアプローチを導入する。これにより、拡張コンテキスト上での大規模言語モデル(LLM)の検索性能が向上する。
論文参考訳（メタデータ） (2025-01-25T14:09:39Z)
Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文参考訳（メタデータ） (2024-11-08T19:27:42Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文参考訳（メタデータ） (2024-09-18T17:53:17Z)
Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文参考訳（メタデータ） (2024-09-07T09:28:55Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。 CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文参考訳（メタデータ） (2024-05-17T07:43:25Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。