Fugu-MT 論文翻訳(概要): DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning

論文の概要: DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning

arxiv url: http://arxiv.org/abs/2409.00997v2
Date: Wed, 2 Oct 2024 09:18:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 03:35:26.100388
Title: DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning
Title（参考訳）: DataSculpt:多目的分割による長期LLMのためのデータランドスケープの構築
Authors: Keer Lu, Xiaonan Nie, Zheng Liang, Da Pan, Shusen Zhang, Keshi Zhao, Weipeng Chen, Zenan Zhou, Guosheng Dong, Bin Cui, Wentao Zhang,
Abstract要約: 長期的なパフォーマンスを改善する鍵は、効果的なデータ組織と管理戦略にある。長文学習用に設計された新しいデータ管理フレームワークであるDataSculptを紹介する。評価の結果,DataSculptは長期学習性能を大幅に向上させることが示された。
参考スコア（独自算出の注目度）: 32.914155560286225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, Large Language Models (LLMs) have demonstrated significant improvements across a variety of tasks, one of which is the long-context capability. The key to improving long-context performance lies in effective data organization and management strategies that integrate data from multiple domains and optimize the context window during training. Through extensive experimental analysis, we identified three key challenges in designing effective data management strategies that enable the model to achieve long-context capability without sacrificing performance in other tasks: (1) a shortage of long documents across multiple domains, (2) effective construction of context windows, and (3) efficient organization of large-scale datasets. To address these challenges, we introduce DataSculpt, a novel data management framework designed for long-context training. We first formulate the organization of training data as a multi-objective combinatorial optimization problem, focusing on attributes including relevance, homogeneity, integrity, and efficiency. Specifically, our approach utilizes a coarse-to-fine methodology to optimize training data organization both efficiently and effectively. We begin by clustering the data based on semantic similarity (coarse), followed by a multi-objective greedy search within each cluster to score and concatenate documents into various context windows (fine). Our comprehensive evaluations demonstrate that DataSculpt significantly enhances long-context training performance, resulting in improvements of 18.09% in retrieval augmentation, 21.23% in summarization, 21.27% in reading comprehension, and a 3.81% increase in code completion, while also maintaining overall model proficiency with a 4.88% improvement.
Abstract（参考訳）: 近年、Large Language Models (LLMs) は様々なタスクにまたがって大幅に改善されている。長期コンテキストのパフォーマンス向上の鍵は、複数のドメインからのデータを統合し、トレーニング中にコンテキストウィンドウを最適化する効果的なデータ組織と管理戦略にある。本研究では,複数の領域にまたがる長い文書の不足,(2)コンテキストウィンドウの効率的な構築,(3)大規模データセットの効率的な構成,という3つの課題を,モデルが他のタスクにおけるパフォーマンスを犠牲にすることなく長期コンテキスト能力を実現することのできる効果的なデータ管理戦略を設計する上での3つの重要な課題を特定した。これらの課題に対処するために、長いコンテキストトレーニング用に設計された新しいデータ管理フレームワークであるDataSculptを紹介します。まず、関係性、均一性、完全性、効率性などの属性に着目し、多目的組合せ最適化問題としてトレーニングデータの組織化を定式化する。具体的には、粗大な方法論を用いて、トレーニングデータ組織を効率的かつ効果的に最適化する。まず、意味的類似性(粗い)に基づいてデータをクラスタ化し、次に、各クラスタ内で複数のオブジェクトの欲求探索を行い、文書をさまざまなコンテキストウィンドウ(ファイン)にまとめる。総合的な評価では、DataSculptは長期学習性能を著しく向上させ、18.09%の検索強化、21.23%の要約、21.27%の読解、3.81%のコード補完、そして4.88%の改善とともに全体的なモデル習熟性を維持した。

関連論文リスト

Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文参考訳（メタデータ） (2025-06-24T17:04:23Z)
Collaborative Unlabeled Data Optimization [6.512302544770766]
本稿では,ラベルなしデータの有用性を最大化するための新しいデータ中心パラダイムを開拓する。ラベルのないデータを配布し、公開可能なタスクに依存しないモデルを活用することで、CoOptはスケーラブルで再利用可能な、持続可能なトレーニングパイプラインを促進します。
論文参考訳（メタデータ） (2025-05-20T09:21:40Z)
IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment [29.703775936837012]
大規模言語モデル(LLM)は、多様な教育データセット上でのスーパービジョンファインチューニング(SFT)を通じて、素晴らしいパフォーマンスを実現している。複数の機能を同時にトレーニングする場合、異なるドメインからのデータ量によって管理される混合トレーニングデータセットは、最終モデルのパフォーマンスに直接影響を及ぼす重要な要素である。混合SFTデータセット内の異なる領域からのデータのボリュームを効果的に最適化する革新的なデータ平衡フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T06:42:44Z)
Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。 Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文参考訳（メタデータ） (2025-05-18T03:10:00Z)
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
Quality over Quantity: Boosting Data Efficiency Through Ensembled Multimodal Data Curation [4.030723722142048]
本稿では,Webcrawlデータセットの非構造的および不均一性に関わる課題に対処する。先進的な学習駆動型アプローチである DAta ThroUgh Multimodal Operators (EcoDatum) のアンサンブルキュレーションを導入する。 EcoDatumは、弱監督アンサンブルフレームワーク内に、様々な単一モーダルおよびマルチモーダルデータキュレーション演算子を戦略的に統合する。 DataCompのリーダーボードでは、38のさまざまな評価データセットの中で、平均的なパフォーマンススコアが0.182だった。
論文参考訳（メタデータ） (2025-02-12T08:40:57Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
YuLan-Mini: An Open Data-efficient Language Model [111.02822724500552]
2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
論文参考訳（メタデータ） (2024-12-23T17:47:53Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
DELIFT: Data Efficient Language model Instruction Fine Tuning [13.538140114667772]
本稿では,3段階の微調整におけるデータ選択を体系的に最適化する新しいアルゴリズムであるDELIFTを紹介する。さまざまなタスクやモデルスケールにわたる実験により、DELIFTはパフォーマンスを損なうことなく、微調整データサイズを最大70%削減できることが示された。
論文参考訳（メタデータ） (2024-11-07T04:38:29Z)
$\textbf{Only-IF}$:Revealing the Decisive Effect of Instruction Diversity on Generalization [1.6958018695660049]
トレーニングデータがセマンティックドメインで十分に分散されている場合、textbfonlyが$であることを示す。例えば$textit$textbfspecialist$$と$textit$textbf generalist$$$モデルの微調整などです。
論文参考訳（メタデータ） (2024-10-07T03:15:11Z)
Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文参考訳（メタデータ） (2024-09-07T09:28:55Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Data Optimization in Deep Learning: A Survey [3.1274367448459253]
本研究の目的は,ディープラーニングのための様々なデータ最適化手法を整理することである。構築された分類学は分割次元の多様性を考慮し、各次元に深いサブタコノミが構築される。構築された分類学と明らかにされた接続は、既存の手法のより良い理解と、新しいデータ最適化手法の設計を啓蒙する。
論文参考訳（メタデータ） (2023-10-25T09:33:57Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。