論文の概要: Data Management For Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2312.01700v1
- Date: Mon, 4 Dec 2023 07:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:47:27.356554
- Title: Data Management For Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルのためのデータ管理:調査
- Authors: Zige Wang, Wanjun Zhong, Yufei Wang, Qi Zhu, Fei Mi, Baojun Wang,
Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: 大規模言語モデル(LLM)の訓練におけるデータの役割
本調査は,LLMの事前学習および教師付き微調整段階におけるデータ管理の現状を概観する。
- 参考スコア(独自算出の注目度): 66.59562797566163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data plays a fundamental role in the training of Large Language Models
(LLMs). Effective data management, particularly in the formulation of a
well-suited training dataset, holds significance for enhancing model
performance and improving training efficiency during pretraining and supervised
fine-tuning phases. Despite the considerable importance of data management, the
current research community still falls short in providing a systematic analysis
of the rationale behind management strategy selection, its consequential
effects, methodologies for evaluating curated datasets, and the ongoing pursuit
of improved strategies. Consequently, the exploration of data management has
attracted more and more attention among the research community. This survey
provides a comprehensive overview of current research in data management within
both the pretraining and supervised fine-tuning stages of LLMs, covering
various noteworthy aspects of data management strategy design: data quantity,
data quality, domain/task composition, etc. Looking toward the future, we
extrapolate existing challenges and outline promising directions for
development in this field. Therefore, this survey serves as a guiding resource
for practitioners aspiring to construct powerful LLMs through effective data
management practices. The collection of the latest papers is available at
https://github.com/ZigeW/data_management_LLM.
- Abstract(参考訳): データは、LLM(Large Language Models)のトレーニングにおいて、基本的な役割を果たす。
効果的なデータ管理は、特に適切なトレーニングデータセットの定式化において、事前トレーニングおよび教師付き微調整フェーズにおけるモデル性能の向上とトレーニング効率の向上に重要である。
データ管理の重要性は大きいが、現在の研究コミュニティでは、管理戦略選択の背景にある理論的根拠や、その影響、キュレートされたデータセットの評価方法、改善された戦略の追求に関する体系的な分析が不足している。
その結果、データ管理の探究が研究コミュニティの間でますます注目を集めている。
本調査は,llmの事前学習と教師付き微調整段階におけるデータ管理の現状について,データ量,データ品質,ドメイン/タスク構成など,データ管理戦略設計のさまざまな特筆すべき側面を包括的に概観する。
将来に向けて、既存の課題を外挿し、この分野の開発に有望な方向性を概説する。
そこで本調査は,データ管理の効果的な実践を通じて,強力なLCMの構築を目指す実践者の指針となる。
最新の論文のコレクションはhttps://github.com/ZigeW/data_management_LLMで公開されている。
関連論文リスト
- A Practical Guide to Fine-tuning Language Models with Limited Data [9.413178499853156]
事前訓練されたLarge Language Models (LLM) を採用することは、膨大なデータ要件にもかかわらず、自然言語処理(NLP)における事実上の標準となっている。
限られたデータを用いたLLMの学習に焦点をあてた最近の研究の急増に触発された本研究では、データ不足の下流タスクにおけるモデル性能を最適化するための、近年のトランスファー学習アプローチについて調査する。
論文 参考訳(メタデータ) (2024-11-14T15:55:37Z) - Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Optimizing the AI Development Process by Providing the Best Support
Environment [0.756282840161499]
機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
論文 参考訳(メタデータ) (2023-04-29T00:44:50Z) - DMOps: Data Management Operation and Recipes [2.28438857884398]
データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。
我々は,NLP製品のデータセット構築を最適化する上で,業界を導く「データ管理運用とレシピ」を提案する。
論文 参考訳(メタデータ) (2023-01-02T09:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。