論文の概要: DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning
- arxiv url: http://arxiv.org/abs/2409.00997v2
- Date: Wed, 02 Oct 2024 09:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:17:25.233567
- Title: DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning
- Title(参考訳): DataSculpt:多目的分割による長期LLMのためのデータランドスケープの構築
- Authors: Keer Lu, Xiaonan Nie, Zheng Liang, Da Pan, Shusen Zhang, Keshi Zhao, Weipeng Chen, Zenan Zhou, Guosheng Dong, Bin Cui, Wentao Zhang,
- Abstract要約: 長期的なパフォーマンスを改善する鍵は、効果的なデータ組織と管理戦略にある。
長文学習用に設計された新しいデータ管理フレームワークであるDataSculptを紹介する。
評価の結果,DataSculptは長期学習性能を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 32.914155560286225
- License:
- Abstract: In recent years, Large Language Models (LLMs) have demonstrated significant improvements across a variety of tasks, one of which is the long-context capability. The key to improving long-context performance lies in effective data organization and management strategies that integrate data from multiple domains and optimize the context window during training. Through extensive experimental analysis, we identified three key challenges in designing effective data management strategies that enable the model to achieve long-context capability without sacrificing performance in other tasks: (1) a shortage of long documents across multiple domains, (2) effective construction of context windows, and (3) efficient organization of large-scale datasets. To address these challenges, we introduce DataSculpt, a novel data management framework designed for long-context training. We first formulate the organization of training data as a multi-objective combinatorial optimization problem, focusing on attributes including relevance, homogeneity, integrity, and efficiency. Specifically, our approach utilizes a coarse-to-fine methodology to optimize training data organization both efficiently and effectively. We begin by clustering the data based on semantic similarity (coarse), followed by a multi-objective greedy search within each cluster to score and concatenate documents into various context windows (fine). Our comprehensive evaluations demonstrate that DataSculpt significantly enhances long-context training performance, resulting in improvements of 18.09% in retrieval augmentation, 21.23% in summarization, 21.27% in reading comprehension, and a 3.81% increase in code completion, while also maintaining overall model proficiency with a 4.88% improvement.
- Abstract(参考訳): 近年、Large Language Models (LLMs) は様々なタスクにまたがって大幅に改善されている。
長期コンテキストのパフォーマンス向上の鍵は、複数のドメインからのデータを統合し、トレーニング中にコンテキストウィンドウを最適化する効果的なデータ組織と管理戦略にある。
本研究では,複数の領域にまたがる長い文書の不足,(2)コンテキストウィンドウの効率的な構築,(3)大規模データセットの効率的な構成,という3つの課題を,モデルが他のタスクにおけるパフォーマンスを犠牲にすることなく長期コンテキスト能力を実現することのできる効果的なデータ管理戦略を設計する上での3つの重要な課題を特定した。
これらの課題に対処するために、長いコンテキストトレーニング用に設計された新しいデータ管理フレームワークであるDataSculptを紹介します。
まず、関係性、均一性、完全性、効率性などの属性に着目し、多目的組合せ最適化問題としてトレーニングデータの組織化を定式化する。
具体的には、粗大な方法論を用いて、トレーニングデータ組織を効率的かつ効果的に最適化する。
まず、意味的類似性(粗い)に基づいてデータをクラスタ化し、次に、各クラスタ内で複数のオブジェクトの欲求探索を行い、文書をさまざまなコンテキストウィンドウ(ファイン)にまとめる。
総合的な評価では、DataSculptは長期学習性能を著しく向上させ、18.09%の検索強化、21.23%の要約、21.27%の読解、3.81%のコード補完、そして4.88%の改善とともに全体的なモデル習熟性を維持した。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
大規模言語モデルにおける一般化と記憶の相互作用について検討する。
各種のオープンソースLLMとその事前学習コーパスを用いて、モデルのサイズが大きくなるにつれて、タスク関連$n$-gramのペアデータの重要性が増すのを観察する。
その結果,LLMの能力は,十分なタスク関連事前学習データによる記憶と一般化の微妙なバランスから生じるという仮説を支持した。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Data Interpreter: An LLM Agent For Data Science [43.99482533437711]
Data Interpreterは、コードで解決するように設計されたソリューションである。
データサイエンスにおける問題解決を強化するための3つの重要なテクニックを強調している。
MATHデータセットは26%増加し、オープンなタスクは112%改善した。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。
LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Pretraining Representations for Data-Efficient Reinforcement Learning [12.43475487724972]
ラベルのないデータを使ってエンコーダを事前訓練し、少数のタスク固有のデータに基づいて微調整する。
Atariゲーム上でのインタラクションが100万段階に制限された場合、我々のアプローチは以前の作業を大幅に上回っている。
提案手法では,大規模モデルと組み合わせることで,より多様なタスク整合観測データが得られる。
論文 参考訳(メタデータ) (2021-06-09T04:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。