論文の概要: A Survey on Efficient Large Language Model Training: From Data-centric Perspectives
- arxiv url: http://arxiv.org/abs/2510.25817v1
- Date: Wed, 29 Oct 2025 17:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.51054
- Title: A Survey on Efficient Large Language Model Training: From Data-centric Perspectives
- Title(参考訳): 大規模言語モデル学習の効率化に関する調査研究:データ中心の視点から
- Authors: Junyu Luo, Bohan Wu, Xiao Luo, Zhiping Xiao, Yiqiao Jin, Rong-Cheng Tu, Nan Yin, Yifan Wang, Jingyang Yuan, Wei Ju, Ming Zhang,
- Abstract要約: 本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。
本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。
我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
- 参考スコア(独自算出の注目度): 42.897899343082806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training of Large Language Models (LLMs) is crucial for unlocking their task generalization potential and domain-specific capabilities. However, the current LLM post-training paradigm faces significant data challenges, including the high costs of manual annotation and diminishing marginal returns on data scales. Therefore, achieving data-efficient post-training has become a key research question. In this paper, we present the first systematic survey of data-efficient LLM post-training from a data-centric perspective. We propose a taxonomy of data-efficient LLM post-training methods, covering data selection, data quality enhancement, synthetic data generation, data distillation and compression, and self-evolving data ecosystems. We summarize representative approaches in each category and outline future research directions. By examining the challenges in data-efficient LLM post-training, we highlight open problems and propose potential research avenues. We hope our work inspires further exploration into maximizing the potential of data utilization in large-scale model training. Paper List: https://github.com/luo-junyu/Awesome-Data-Efficient-LLM
- Abstract(参考訳): 大規模言語モデル(LLM)のポストトレーニングは、タスクの一般化可能性とドメイン固有の能力の解放に不可欠である。
しかし、現在のLLMポストトレーニングパラダイムは、手動アノテーションの高コストやデータスケールにおける限界リターンの低減など、重要なデータ課題に直面している。
そのため、データ効率の高いポストトレーニングを実現することが重要な研究課題となっている。
本稿では,データ中心の観点から,データ効率の高いLCMポストトレーニングに関する最初の体系的調査を示す。
本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。
各カテゴリの代表的アプローチを要約し、今後の研究方向性を概説する。
データ効率のよいLCMポストトレーニングの課題を検討することで、オープンな問題を強調し、潜在的研究方法を提案する。
我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
Paper List: https://github.com/luo-junyu/Awesome-Data-Efficient-LLM
関連論文リスト
- Augmented Relevance Datasets with Fine-Tuned Small LLMs [0.7022492404644501]
本稿では,小型かつ微調整された大規模言語モデル (LLM) を用いた妥当性評価の自動化について検討する。
そこで我々は,小規模LLMを微調整し,関連性評価を強化し,下流ランキングモデルトレーニングのためのデータセット作成品質を向上させる。
論文 参考訳(メタデータ) (2025-04-14T02:35:00Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning [16.307467144690683]
大規模な言語モデルは、少量の高品質なデータだけで望ましいパフォーマンスを達成することができる。
大規模なデータセットから高品質なデータを識別して、小さいが効果的なデータセットをキュレートすることが、重要な課題である。
本稿では,Shapley値に基づく自動データセット精錬フレームワークSHEDを紹介する。
論文 参考訳(メタデータ) (2024-04-23T04:56:48Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。