論文の概要: DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM
Workflows
- arxiv url: http://arxiv.org/abs/2402.10379v1
- Date: Fri, 16 Feb 2024 00:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:52:00.427368
- Title: DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM
Workflows
- Title(参考訳): DataDreamer: 合成データ生成と再現可能なLLMワークフローのためのツール
- Authors: Ajay Patel, Colin Raffel, Chris Callison-Burch
- Abstract要約: 我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
- 参考スコア(独自算出の注目度): 81.38065762300718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have become a dominant and important tool for
NLP researchers in a wide range of tasks. Today, many researchers use LLMs in
synthetic data generation, task evaluation, fine-tuning, distillation, and
other model-in-the-loop research workflows. However, challenges arise when
using these models that stem from their scale, their closed source nature, and
the lack of standardized tooling for these new and emerging workflows. The
rapid rise to prominence of these models and these unique challenges has had
immediate adverse impacts on open science and on the reproducibility of work
that uses them. In this paper, we introduce DataDreamer, an open source Python
library that allows researchers to write simple code to implement powerful LLM
workflows. DataDreamer also helps researchers adhere to best practices that we
propose to encourage open science and reproducibility. The library and
documentation are available at https://github.com/datadreamer-dev/DataDreamer .
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクにおいて、NLP研究者にとって支配的かつ重要なツールとなっている。
現在、多くの研究者が合成データ生成、タスク評価、微調整、蒸留、その他のループ内のモデル研究ワークフローにLLMを使用している。
しかし、これらのモデルの規模、クローズドソースの性質、新しい新しいワークフローのための標準化されたツールの欠如から生じる課題がある。
これらのモデルが急速に普及し、これらのユニークな課題は、オープンサイエンスとそれらを使う仕事の再現性に直接的な悪影響を及ぼした。
本稿では,オープンソースのpythonライブラリであるdatadreamerを紹介する。これにより研究者は,強力なllmワークフローを実装するための簡単なコードを書くことができる。
DataDreamerはまた、オープンサイエンスと再現性を促進するために提案するベストプラクティスの遵守を支援する。
ライブラリとドキュメントはhttps://github.com/datadreamer-dev/datadreamerで入手できる。
関連論文リスト
- Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and
Challenges [49.039080454730566]
データ拡張(DA)は、モデルパフォーマンスを向上させるための重要なテクニックとして現れている。
本稿では,大規模言語モデル(LLM)がDAに与える影響について検討する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - LLMs for Science: Usage for Code Generation and Data Analysis [0.08192907805418582]
大規模言語モデル (LLMs) は、今日の作業環境の多くの領域で生産性の向上を図っている。
LLMのポテンシャルが研究の実践においてどのように実現されるのかは、いまだ不明である。
論文 参考訳(メタデータ) (2023-11-28T12:29:33Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Julearn: an easy-to-use library for leakage-free evaluation and
inspection of ML models [0.23301643766310373]
我々は、Julearnの設計の背景にある理論的根拠と、その中核となる特徴を提示し、以前に公表された研究プロジェクトの3つの例を示す。
Julearnは、最も一般的なMLの落とし穴に対して、ガードを組み込んだ使いやすい環境を提供することで、機械学習の世界への参入を単純化することを目指している。
論文 参考訳(メタデータ) (2023-10-19T08:21:12Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Fabricator: An Open Source Toolkit for Generating Labeled Training Data
with Teacher LLMs [6.847114270274019]
下流のNLPモデルのトレーニングに使用できるラベル付きデータを生成する方法を示す。
NLP生成のためのオープンソースのPythonツールキットであるFabricatorを紹介する。
論文 参考訳(メタデータ) (2023-09-18T08:45:47Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z) - PyRelationAL: A Library for Active Learning Research and Development [0.11545092788508224]
PyRelationALは、アクティブラーニング(AL)研究のためのオープンソースライブラリである。
既存の文献に基づいたベンチマークデータセットとALタスク設定へのアクセスを提供する。
我々は、ベンチマークデータセットのPyRelationALコレクションの実験を行い、ALが提供できる相当な経済状況を示す。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。