論文の概要: Towards Next-Generation LLM Training: From the Data-Centric Perspective
- arxiv url: http://arxiv.org/abs/2603.14712v1
- Date: Mon, 16 Mar 2026 01:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.983601
- Title: Towards Next-Generation LLM Training: From the Data-Centric Perspective
- Title(参考訳): 次世代LDM教育に向けて:データ中心の視点から
- Authors: Hao Liang, Zhengyang Zhao, Zhaoyang Han, Meiyi Qiang, Xiaochen Ma, Bohan Zeng, Qifeng Cai, Zhiyu Li, Linpeng Tang, Weinan E, Wentao Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクやドメインで顕著なパフォーマンスを示しており、データはこれらの進歩を可能にする上で中心的な役割を果たす。
この成功にもかかわらず、LLMトレーニングに必要な大量のデータセットの準備と有効利用は大きなボトルネックのままである。
本稿では、ワークフローの自動構築とスケーラブルなデータ管理をサポートする、堅牢でエージェントベースの自動データ準備システムの構築を提案する。
我々は、トレーニングプロセスを通してデータを動的に選択し、混合し、再重み付けし、より効率的で適応的で、パフォーマンスに配慮したデータ利用を可能にする統一されたデータモデルインタラクショントレーニングシステムについて論じる。
- 参考スコア(独自算出の注目度): 29.115711465172122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance across a wide range of tasks and domains, with data playing a central role in enabling these advances. Despite this success, the preparation and effective utilization of the massive datasets required for LLM training remain major bottlenecks. In current practice, LLM training data is often constructed using ad hoc scripts, and there is still a lack of mature, agent-based data preparation systems that can automatically construct robust and reusable data workflows, thereby freeing data scientists from repetitive and error-prone engineering efforts. Moreover, once collected, datasets are often consumed largely in their entirety during training, without systematic mechanisms for data selection, mixture optimization, or reweighting. To address these limitations, we advocate two complementary research directions. First, we propose building a robust, agent-based automatic data preparation system that supports automated workflow construction and scalable data management. Second, we argue for a unified data-model interaction training system in which data is dynamically selected, mixed, and reweighted throughout the training process, enabling more efficient, adaptive, and performance-aware data utilization. Finally, we discuss the remaining challenges and outline promising directions for future research and system development.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクやドメインで顕著なパフォーマンスを示しており、データはこれらの進歩を可能にする上で中心的な役割を果たす。
この成功にもかかわらず、LLMトレーニングに必要な大量のデータセットの準備と有効利用は大きなボトルネックのままである。
現在、LLMトレーニングデータはアドホックなスクリプトを使ってしばしば構築されており、堅牢で再利用可能なデータワークフローを自動構築できる成熟したエージェントベースのデータ準備システムがないため、データサイエンティストは繰り返しやエラーを起こしやすいエンジニアリング作業から解放される。
さらに、一度収集されたデータセットは、データ選択、混合最適化、再重み付けの体系的なメカニズムなしで、トレーニング中に大半を消費することが多い。
これらの制限に対処するため、我々は2つの相補的な研究方向を提唱する。
まず、自動化されたワークフロー構築とスケーラブルなデータ管理をサポートする、堅牢でエージェントベースの自動データ準備システムを構築することを提案する。
第2に、トレーニングプロセスを通してデータを動的に選択し、混合し、再重み付けし、より効率的で適応的で、パフォーマンスに配慮したデータ利用を可能にする統合データモデルインタラクショントレーニングシステムについて論じる。
最後に,今後の研究・システム開発に向けた今後の課題について概説する。
関連論文リスト
- Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。
我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。
提案手法の有効性を実証研究により検証する。
論文 参考訳(メタデータ) (2026-02-09T18:47:51Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - History Is Not Enough: An Adaptive Dataflow System for Financial Time-Series Synthesis [25.486090554711797]
は、市場とともに進化することを学ぶ適応データ生成の必要性を浮き彫りにしている。
本稿では,機械学習に基づく適応制御をデータキュレーションプロセスに統合するドリフト対応データフローシステムを提案する。
論文 参考訳(メタデータ) (2026-01-15T07:38:59Z) - A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.897899343082806]
本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。
本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。
我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
論文 参考訳(メタデータ) (2025-10-29T17:01:55Z) - Towards an Introspective Dynamic Model of Globally Distributed Computing Infrastructures [27.473508984130728]
大規模な科学的コラボレーションはペタバイト単位のデータを生成し、ボリュームはすぐにエクタバイトに達すると期待されている。
これらの計算とストレージの要求を管理するために、中央集権的なワークフローとデータ管理システムが実装されている。
より効果的あるいはAI駆動のソリューションを採用する上で重要な障害は、迅速で信頼性の高いイントロスペクティブ・ダイナミック・モデルがないことである。
論文 参考訳(メタデータ) (2025-06-24T12:42:36Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。