論文の概要: DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning
- arxiv url: http://arxiv.org/abs/2409.00997v2
- Date: Wed, 2 Oct 2024 09:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 03:35:26.100388
- Title: DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning
- Title(参考訳): DataSculpt:多目的分割による長期LLMのためのデータランドスケープの構築
- Authors: Keer Lu, Xiaonan Nie, Zheng Liang, Da Pan, Shusen Zhang, Keshi Zhao, Weipeng Chen, Zenan Zhou, Guosheng Dong, Bin Cui, Wentao Zhang,
- Abstract要約: 長期的なパフォーマンスを改善する鍵は、効果的なデータ組織と管理戦略にある。
長文学習用に設計された新しいデータ管理フレームワークであるDataSculptを紹介する。
評価の結果,DataSculptは長期学習性能を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 32.914155560286225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Large Language Models (LLMs) have demonstrated significant improvements across a variety of tasks, one of which is the long-context capability. The key to improving long-context performance lies in effective data organization and management strategies that integrate data from multiple domains and optimize the context window during training. Through extensive experimental analysis, we identified three key challenges in designing effective data management strategies that enable the model to achieve long-context capability without sacrificing performance in other tasks: (1) a shortage of long documents across multiple domains, (2) effective construction of context windows, and (3) efficient organization of large-scale datasets. To address these challenges, we introduce DataSculpt, a novel data management framework designed for long-context training. We first formulate the organization of training data as a multi-objective combinatorial optimization problem, focusing on attributes including relevance, homogeneity, integrity, and efficiency. Specifically, our approach utilizes a coarse-to-fine methodology to optimize training data organization both efficiently and effectively. We begin by clustering the data based on semantic similarity (coarse), followed by a multi-objective greedy search within each cluster to score and concatenate documents into various context windows (fine). Our comprehensive evaluations demonstrate that DataSculpt significantly enhances long-context training performance, resulting in improvements of 18.09% in retrieval augmentation, 21.23% in summarization, 21.27% in reading comprehension, and a 3.81% increase in code completion, while also maintaining overall model proficiency with a 4.88% improvement.
- Abstract(参考訳): 近年、Large Language Models (LLMs) は様々なタスクにまたがって大幅に改善されている。
長期コンテキストのパフォーマンス向上の鍵は、複数のドメインからのデータを統合し、トレーニング中にコンテキストウィンドウを最適化する効果的なデータ組織と管理戦略にある。
本研究では,複数の領域にまたがる長い文書の不足,(2)コンテキストウィンドウの効率的な構築,(3)大規模データセットの効率的な構成,という3つの課題を,モデルが他のタスクにおけるパフォーマンスを犠牲にすることなく長期コンテキスト能力を実現することのできる効果的なデータ管理戦略を設計する上での3つの重要な課題を特定した。
これらの課題に対処するために、長いコンテキストトレーニング用に設計された新しいデータ管理フレームワークであるDataSculptを紹介します。
まず、関係性、均一性、完全性、効率性などの属性に着目し、多目的組合せ最適化問題としてトレーニングデータの組織化を定式化する。
具体的には、粗大な方法論を用いて、トレーニングデータ組織を効率的かつ効果的に最適化する。
まず、意味的類似性(粗い)に基づいてデータをクラスタ化し、次に、各クラスタ内で複数のオブジェクトの欲求探索を行い、文書をさまざまなコンテキストウィンドウ(ファイン)にまとめる。
総合的な評価では、DataSculptは長期学習性能を著しく向上させ、18.09%の検索強化、21.23%の要約、21.27%の読解、3.81%のコード補完、そして4.88%の改善とともに全体的なモデル習熟性を維持した。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - DELIFT: Data Efficient Language model Instruction Fine Tuning [13.538140114667772]
本稿では,3段階の微調整におけるデータ選択を体系的に最適化する新しいアルゴリズムであるDELIFTを紹介する。
さまざまなタスクやモデルスケールにわたる実験により、DELIFTはパフォーマンスを損なうことなく、微調整データサイズを最大70%削減できることが示された。
論文 参考訳(メタデータ) (2024-11-07T04:38:29Z) - $\textbf{Only-IF}$:Revealing the Decisive Effect of Instruction Diversity on Generalization [1.6958018695660049]
トレーニングデータがセマンティックドメインで十分に分散されている場合、textbfonlyが$であることを示す。
例えば$textit$textbfspecialist$$と$textit$textbf generalist$$$モデルの微調整などです。
論文 参考訳(メタデータ) (2024-10-07T03:15:11Z) - Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。
継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。
我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-09-07T09:28:55Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Data Optimization in Deep Learning: A Survey [3.1274367448459253]
本研究の目的は,ディープラーニングのための様々なデータ最適化手法を整理することである。
構築された分類学は分割次元の多様性を考慮し、各次元に深いサブタコノミが構築される。
構築された分類学と明らかにされた接続は、既存の手法のより良い理解と、新しいデータ最適化手法の設計を啓蒙する。
論文 参考訳(メタデータ) (2023-10-25T09:33:57Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。