論文の概要: Datasets for Large Language Models: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2402.18041v1
- Date: Wed, 28 Feb 2024 04:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:28:13.299253
- Title: Datasets for Large Language Models: A Comprehensive Survey
- Title(参考訳): 大規模言語モデルのためのデータセット: 包括的調査
- Authors: Yang Liu, Jiahuan Cao, Chongyu Liu, Kai Ding, Lianwen Jin
- Abstract要約: この調査は、LLMデータセットの基本的側面を5つの観点から統合し、分類する。
この調査は、一般的な課題を浮き彫りにし、今後の調査への道のりを指摘している。
調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。
- 参考スコア(独自算出の注目度): 37.153302283062004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper embarks on an exploration into the Large Language Model (LLM)
datasets, which play a crucial role in the remarkable advancements of LLMs. The
datasets serve as the foundational infrastructure analogous to a root system
that sustains and nurtures the development of LLMs. Consequently, examination
of these datasets emerges as a critical topic in research. In order to address
the current lack of a comprehensive overview and thorough analysis of LLM
datasets, and to gain insights into their current status and future trends,
this survey consolidates and categorizes the fundamental aspects of LLM
datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction
Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5)
Traditional Natural Language Processing (NLP) Datasets. The survey sheds light
on the prevailing challenges and points out potential avenues for future
investigation. Additionally, a comprehensive review of the existing available
dataset resources is also provided, including statistics from 444 datasets,
covering 8 language categories and spanning 32 domains. Information from 20
dimensions is incorporated into the dataset statistics. The total data size
surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for
other datasets. We aim to present the entire landscape of LLM text datasets,
serving as a comprehensive reference for researchers in this field and
contributing to future studies. Related resources are available at:
https://github.com/lmmlzn/Awesome-LLMs-Datasets.
- Abstract(参考訳): 本稿では,LLMの顕著な進歩に重要な役割を果たすLarge Language Model (LLM)データセットについて検討する。
データセットは、LLMの開発を維持、育成するルートシステムに類似した基盤基盤として機能する。
その結果、これらのデータセットの検証は研究において重要なトピックとして現れる。
llmデータセットの包括的概要と詳細な分析の欠如に対処し,その現状と今後の動向に関する洞察を得るため,本調査は,(1)事前学習コーパス,(2)命令微調整データセット,(3)選好データセット,(4)評価データセット,(5)伝統的自然言語処理(nlp)データセットの5つの視点から,llmデータセットの基本的な側面を統合し,分類する。
調査は一般的な課題に光を当て、今後の調査の道筋を指摘する。
さらに、既存のデータセットリソースの包括的なレビューも提供されており、44のデータセットからの統計、8つの言語カテゴリ、32のドメインをカバーする。
20次元からの情報はデータセット統計に組み込まれている。
調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。
我々は,LLMテキストデータセットの全体像を提示し,この分野の研究者の包括的参照と今後の研究への貢献を目的としている。
関連するリソースは、https://github.com/lmmlzn/awesome-llms-datasetsで入手できる。
関連論文リスト
- The State of Data Curation at NeurIPS: An Assessment of Dataset Development Practices in the Datasets and Benchmarks Track [1.5993707490601146]
この研究は、データキュレーションのレンズを通してNeurIPSにおけるデータセット開発プラクティスの分析を提供する。
本稿では,ルーブリックとツールキットからなるデータセットドキュメンテーションの評価フレームワークを提案する。
結果は、環境のフットプリント、倫理的考慮、データ管理に関するドキュメントの必要性がさらに高まっていることを示している。
論文 参考訳(メタデータ) (2024-10-29T19:07:50Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。
この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文 参考訳(メタデータ) (2024-01-24T21:47:13Z) - TeleQnA: A Benchmark Dataset to Assess Large Language Models
Telecommunications Knowledge [26.302396162473293]
TeleQnAは、電気通信におけるLLM(Large Language Models)の知識を評価するために設計された最初のベンチマークデータセットである。
本稿では,このデータセット作成に責任を負う自動質問生成フレームワークについて概説する。
データセットはGitHubで公開されている。
論文 参考訳(メタデータ) (2023-10-23T15:55:15Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。