Fugu-MT 論文翻訳(概要): DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

論文の概要: DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

arxiv url: http://arxiv.org/abs/2402.10379v2
Date: Mon, 27 May 2024 19:54:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 01:28:38.397080
Title: DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows
Title（参考訳）: DataDreamer: 合成データ生成と再現可能なLLMワークフローのためのツール
Authors: Ajay Patel, Colin Raffel, Chris Callison-Burch,
Abstract要約: 我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。 DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
参考スコア（独自算出の注目度）: 72.40917624485822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have become a dominant and important tool for NLP researchers in a wide range of tasks. Today, many researchers use LLMs in synthetic data generation, task evaluation, fine-tuning, distillation, and other model-in-the-loop research workflows. However, challenges arise when using these models that stem from their scale, their closed source nature, and the lack of standardized tooling for these new and emerging workflows. The rapid rise to prominence of these models and these unique challenges has had immediate adverse impacts on open science and on the reproducibility of work that uses them. In this paper, we introduce DataDreamer, an open source Python library that allows researchers to write simple code to implement powerful LLM workflows. DataDreamer also helps researchers adhere to best practices that we propose to encourage open science and reproducibility. The library and documentation are available at https://github.com/datadreamer-dev/DataDreamer .
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広いタスクにおいて、NLP研究者にとって支配的かつ重要なツールとなっている。現在、多くの研究者が合成データ生成、タスク評価、微調整、蒸留、その他のループ内のモデル研究ワークフローにLLMを使用している。しかし、これらのモデルの規模、クローズドソースの性質、新しい新しいワークフローのための標準化されたツールの欠如から生じる課題がある。これらのモデルが急速に普及し、これらのユニークな課題は、オープンサイエンスとそれらを使用する作業の再現性にすぐに悪影響を及ぼした。本稿では,オープンソースのPythonライブラリであるDataDreamerを紹介する。 DataDreamerはまた、オープンサイエンスと再現性を促進するために提案するベストプラクティスの遵守を支援する。ライブラリとドキュメントはhttps://github.com/datadreamer-dev/DataDreamer で公開されている。

関連論文リスト

MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
SubData: A Python Library to Collect and Combine Datasets for Evaluating LLM Alignment on Downstream Tasks [4.04666623219944]
SubDataはPythonライブラリで、アノテーションタスクの主観性に関連するトピックに取り組む研究者に、適切なデータセットを収集、組み合わせ、使用するための便利な方法を提供する。
論文参考訳（メタデータ） (2024-12-21T21:40:31Z)
Learning to Verify Summary Facts with Fine-Grained LLM Feedback [15.007479147796403]
自動要約事実検証の訓練は、人間がラベル付けしたデータの不足という課題に直面していることが多い。本研究では,要約に関する詳細な事実フィードバックを含む大規模データセットであるFineSumFactを紹介する。
論文参考訳（メタデータ） (2024-12-14T05:28:44Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Rethinking Scale: The Efficacy of Fine-Tuned Open-Source LLMs in Large-Scale Reproducible Social Science Research [0.0]
大規模言語モデル(LLM)は、パラメータのサイズと性能を規定するアーキテクチャによって区別される。社会科学者はテキスト分類タスクにLLMを採用しており、人間のコーダーではスケールが難しい。本研究は,ChatGPT-4 などのモデルに対して,小型かつ微調整のオープンソース LLM が同等あるいは優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2024-10-31T20:26:30Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-09-18T13:20:23Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。 MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文参考訳（メタデータ） (2024-06-10T15:19:09Z)
Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。 LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文参考訳（メタデータ） (2024-02-21T00:44:04Z)
LLMs for Science: Usage for Code Generation and Data Analysis [0.07499722271664144]
大規模言語モデル (LLMs) は、今日の作業環境の多くの領域で生産性の向上を図っている。 LLMのポテンシャルが研究の実践においてどのように実現されるのかは、いまだ不明である。
論文参考訳（メタデータ） (2023-11-28T12:29:33Z)
Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs [6.847114270274019]
下流のNLPモデルのトレーニングに使用できるラベル付きデータを生成する方法を示す。 NLP生成のためのオープンソースのPythonツールキットであるFabricatorを紹介する。
論文参考訳（メタデータ） (2023-09-18T08:45:47Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。