Fugu-MT 論文翻訳(概要): Data Engineering for Scaling Language Models to 128K Context

論文の概要: Data Engineering for Scaling Language Models to 128K Context

arxiv url: http://arxiv.org/abs/2402.10171v1
Date: Thu, 15 Feb 2024 18:19:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 14:23:51.057883
Title: Data Engineering for Scaling Language Models to 128K Context
Title（参考訳）: 言語モデルを128kコンテキストにスケールアップするためのデータエンジニアリング
Authors: Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi, Yoon Kim and Hao Peng
Abstract要約: 本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。既存の作業の一般的な実践である書籍のような特定のドメインで、より長いデータを鼻でサンプリングすることで、パフォーマンスが最適以下であることが分かりました。我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
参考スコア（独自算出の注目度）: 98.41554785106902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the continual pretraining recipe for scaling language models' context lengths to 128K, with a focus on data engineering. We hypothesize that long context modeling, in particular \textit{the ability to utilize information at arbitrary input locations}, is a capability that is mostly already acquired through large-scale pretraining, and that this capability can be readily extended to contexts substantially longer than seen during training~(e.g., 4K to 128K) through lightweight continual pretraining on appropriate data mixture. We investigate the \textit{quantity} and \textit{quality} of the data for continual pretraining: (1) for quantity, we show that 500 million to 5 billion tokens are enough to enable the model to retrieve information anywhere within the 128K context; (2) for quality, our results equally emphasize \textit{domain balance} and \textit{length upsampling}. Concretely, we find that naively upsampling longer data on certain domains like books, a common practice of existing work, gives suboptimal performance, and that a balanced domain mixture is important. We demonstrate that continual pretraining of the full model on 1B-5B tokens of such data is an effective and affordable strategy for scaling the context length of language models to 128K. Our recipe outperforms strong open-source long-context models and closes the gap to frontier models like GPT-4 128K.
Abstract（参考訳）: 言語モデルのコンテキスト長を128kまでスケールアップするための継続的事前学習レシピを,データエンジニアリングを中心に検討した。長いコンテキストモデリング、特に \textit{the ability to use information at any input locations} は、主に大規模事前トレーニングによって既に獲得されている機能であり、この能力は、適切なデータ混合上での軽量な連続的事前トレーニングを通じて、トレーニング中(例えば、4kから128k)において、かなり長いコンテキストに拡張できると仮定する。本研究では, 連続事前学習のためのデータの「textit{quantity}」と「textit{quality}」について検討する。(1) 量について, 5億～50億個のトークンが, 128Kコンテキスト内であればどこでも情報を検索できることを示す;(2) 品質についても同様に「textit{domain balance}」と「textit{length upsampling}」が強調される。具体的には、本のような特定のドメインのより長いデータ、つまり既存の作業の一般的な実践は、最適以下のパフォーマンスをもたらし、バランスの取れたドメインの混合が重要であることに気付きます。このようなデータの1B-5Bトークン上でのフルモデルの連続事前学習は、言語モデルの文脈長を128Kに拡張するための効果的で安価な戦略であることを示す。我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。 MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか? 最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-13T17:59:05Z)
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-02-26T18:01:19Z)
Scaling Pre-training to One Hundred Billion Data for Vision Language Models [23.437750698345067]
これまでにない規模の視覚言語モデルの事前学習の可能性について検討する。モデルの性能は、多くの西洋中心の分類と検索のベンチマークにおいて、この規模で飽和する傾向にある。文化的多様性の課題は、長い尾のコンセプトをカバーしているため、100億のスケールのWebデータから大幅に向上した。
論文参考訳（メタデータ） (2025-02-11T15:05:33Z)
Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training [51.60874286674908]
我々は,事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。 1)事前学習プロセス全体,特にデータ構築を習得すること,2)モデルの知識保持を評価すること,3)トレーニング前に利用可能な情報のみを使用してタスク固有の知識保持を予測すること,の3つの課題に対処する。本稿では,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMIメトリクスを紹介する。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文参考訳（メタデータ） (2024-09-19T08:41:21Z)
Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文参考訳（メタデータ） (2024-09-07T09:28:55Z)
Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting [15.69952375347308]
言語モデルは、文脈内学習(ICL)を実行する能力を持つ言語モデルは、コンテキスト内で学習する能力があるにもかかわらず、目に見えないか、めったに見られないトークンに直面したときに苦労することが知られている。本研究では,玩具モデル,マスク言語モデル,自己回帰言語モデルを用いて,合成タスクと自然主義タスクの両方に関する構造的インコンテキストアルゴリズムについて検討する。
論文参考訳（メタデータ） (2024-05-28T21:38:20Z)
Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文参考訳（メタデータ） (2024-03-07T16:52:49Z)
Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-27T12:39:23Z)
Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。具体的には、Webで収集したCoyo-700Mデータセットを利用する。我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文参考訳（メタデータ） (2023-05-24T15:33:46Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文参考訳（メタデータ） (2022-11-09T15:07:06Z)
BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling [0.0]
Common Crawlは、この事前学習サブ最適化を実現するのに十分なノイズを含むかもしれない。約半分のステップで言語モデルの事前学習を可能にする新しいデータ中心手法を提案する。私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングするための道を開くものです。
論文参考訳（メタデータ） (2022-07-14T10:48:42Z)
On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。 ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文参考訳（メタデータ） (2022-06-09T17:58:24Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。