論文の概要: Data Science and Technology Towards AGI Part I: Tiered Data Management
- arxiv url: http://arxiv.org/abs/2602.09003v1
- Date: Mon, 09 Feb 2026 18:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.432981
- Title: Data Science and Technology Towards AGI Part I: Tiered Data Management
- Title(参考訳): AGIに向けたデータサイエンスと技術 I:階層型データ管理
- Authors: Yudong Wang, Zixuan Fu, Hengyu Zhao, Chen Zhao, Chuyue Zhou, Xinle Lin, Hongya Lyu, Shuaikang Xue, Yi Yi, Yingjiao Wang, Zhi Zheng, Yuzhou Zhang, Jie Zhou, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。
我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。
提案手法の有効性を実証研究により検証する。
- 参考スコア(独自算出の注目度): 53.64581824953229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.
- Abstract(参考訳): 人工知能の開発は、データ駆動学習パラダイムの進化と見なすことができ、データ編成の連続的なシフトと、モデル能力の継続的な進歩を推進している。
現在のLLM研究は、データサイズの一方向スケーリングに大きく依存するパラダイムによって支配されており、データの可用性、取得コスト、トレーニング効率のボトルネックがますます増大している。
本研究では,AGIの開発がデータモデル共進化の新たな段階に入りつつあり,モデルがデータ管理を積極的に指導し,高品質なデータによってモデルの能力が向上していることを論じる。
このビジョンを実現するために、不均一な学習目標とコスト制約にまたがる完全なLLMトレーニングライフサイクルをサポートするために設計された階層型データ管理フレームワークを提案する。
具体的には、生未処理のリソースから、組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。
重要なことに、LCMは、品質スコアリングやコンテンツ編集といったデータ管理プロセスで、階層間でデータを洗練するために完全に使われています。
各ティアは、異なるデータプロパティ、管理戦略、トレーニングロールによって特徴づけられ、事前トレーニング、中級トレーニング、アライメントを含むLSMトレーニングステージにデータを戦略的に割り当てることができる。
このフレームワークは、データ品質、取得コスト、限界トレーニング利益のバランスをとり、スケーラブルで持続可能なデータ管理に対する体系的なアプローチを提供する。
提案手法の有効性を実証実験により検証し, 生のコーパスから階層化されたデータセットを構築し, 複数の学習段階にまたがって使用した。
実験結果から,階層認識データ利用はトレーニング効率とモデル性能を著しく向上させることが示された。
さらなる研究を容易にするため、私たちは、階層化されたデータセットと処理ツールをコミュニティにリリースしました。
関連論文リスト
- From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。
多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文 参考訳(メタデータ) (2025-09-14T12:20:39Z) - Data Efficacy for Language Model Training [29.901090317084005]
データは言語モデル(LM)の訓練の基礎となる。
近年の研究では、トレーニングデータの最小または最適サブセットを選択することで、パフォーマンスを最大化することを目的としている。
本研究は、LMトレーニングにおけるデータの有効性を検討するための一般的なパラダイムであるDELTを紹介する。
論文 参考訳(メタデータ) (2025-06-26T17:59:07Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Optimizing the AI Development Process by Providing the Best Support
Environment [0.756282840161499]
機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
論文 参考訳(メタデータ) (2023-04-29T00:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。