Fugu-MT 論文翻訳(概要): Better Synthetic Data by Retrieving and Transforming Existing Datasets

論文の概要: Better Synthetic Data by Retrieving and Transforming Existing Datasets

arxiv url: http://arxiv.org/abs/2404.14361v3
Date: Fri, 26 Apr 2024 19:02:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 20:29:37.030588
Title: Better Synthetic Data by Retrieving and Transforming Existing Datasets
Title（参考訳）: 既存のデータセットの検索と変換によるより良い合成データ
Authors: Saumya Gandhi, Ritu Gala, Vijay Viswanathan, Tongshuang Wu, Graham Neubig,
Abstract要約: 我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
参考スコア（独自算出の注目度）: 63.875064274379824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite recent advances in large language models, building dependable and deployable NLP models typically requires abundant, high-quality training data. However, task-specific data is not available for many use cases, and manually curating task-specific data is labor-intensive. Recent work has studied prompt-driven synthetic data generation using large language models, but these generated datasets tend to lack complexity and diversity. To address these limitations, we introduce a method, DataTune, to make better use of existing, publicly available datasets to improve automatic dataset generation. DataTune performs dataset transformation, enabling the repurposing of publicly available datasets into a format that is directly aligned with the specific requirements of target tasks. On a diverse set of language-based tasks from the BIG-Bench benchmark, we find that finetuning language models via DataTune improves over a few-shot prompting baseline by 49% and improves over existing methods that use synthetic or retrieved training data by 34%. We find that dataset transformation significantly increases the diversity and difficulty of generated data on many tasks. We integrate DataTune into an open-source repository to make this method accessible to the community: https://github.com/neulab/prompt2model.
Abstract（参考訳）: 近年の大規模言語モデルの発展にもかかわらず、信頼性が高くデプロイ可能なNLPモデルの構築には、多くの高品質なトレーニングデータが必要である。しかし、多くのユースケースでタスク固有のデータは利用できず、手作業でタスク固有のデータをキュレートするのは労働集約的です。近年の研究では、大規模言語モデルを用いたプロンプト駆動合成データ生成について研究されているが、これらのデータセットは複雑さと多様性に欠ける傾向がある。これらの制限に対処するため、既存の公開データセットをよりよく活用して自動データセット生成を改善するために、DataTuneという手法を導入しました。 DataTuneはデータセット変換を実行することで、公開されているデータセットを、ターゲットタスクの特定の要件と直接整合したフォーマットに再利用することが可能になる。 BIG-Benchベンチマークによる多種多様な言語ベースのタスクでは、DataTuneによる微調整言語モデルは、ベースラインを49%改善し、合成または検索されたトレーニングデータを使用する既存のメソッドを34%改善する。データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。 DataTuneをオープンソースリポジトリに統合して,このメソッドをコミュニティに公開しています。

関連論文リスト

Hierarchical Dataset Selection for High-Quality Data Sharing [6.079330426909266]
本稿では,データセットとグループ(例えば,コレクション,機関)レベルでユーティリティをモデル化するデータセット選択手法を提案する。 DaSHは最先端のデータ選択ベースラインを26.2%精度で上回り、探索手順は大幅に少ない。
論文参考訳（メタデータ） (2025-12-11T18:59:55Z)
DataMIL: Selecting Data for Robot Imitation Learning with Datamodels [77.48472034791213]
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-05-14T17:55:10Z)
Making Sense of Data in the Wild: Data Analysis Automation at Scale [0.1747623282473278]
本稿では,インテリジェントエージェントと検索拡張生成を組み合わせることで,データ解析,データセットキュレーション,インデックス作成を大規模に自動化する手法を提案する。提案手法により,より詳細なデータセット記述,より高いヒット率,データセット検索タスクの多様性が得られた。
論文参考訳（メタデータ） (2025-01-27T10:04:10Z)
Swift Cross-Dataset Pruning: Enhancing Fine-Tuning Efficiency in Natural Language Understanding [2.379669478864599]
現在の微調整のためのクロスデータセットプルーニング技術は、しばしば計算に高価なサンプルランキングプロセスに依存している。我々は,TF-IDF埋め込みと幾何中央値を用いたSwift Cross-Dataset Pruning (SCDP)を提案する。 6つの多様なデータセットに対する実験結果から,様々なタスクやスケールにまたがる手法の有効性が示された。
論文参考訳（メタデータ） (2025-01-05T03:52:04Z)
Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文参考訳（メタデータ） (2024-10-14T15:48:09Z)
Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文参考訳（メタデータ） (2024-10-05T17:11:37Z)
DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価するこのモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文参考訳（メタデータ） (2024-03-29T22:59:34Z)
Imitation Learning Datasets: A Toolkit For Creating Datasets, Training Agents and Benchmarking [0.9944647907864256]
模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされる。この作業は、Imitation Learningデータセットを作成することで、これらの問題に対処することを目的としている。
論文参考訳（メタデータ） (2024-03-01T14:18:46Z)
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文参考訳（メタデータ） (2024-02-21T02:45:46Z)
DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文参考訳（メタデータ） (2023-05-26T05:22:36Z)
Parsing with Pretrained Language Models, Multiple Datasets, and Dataset Embeddings [13.097523786733872]
変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
論文参考訳（メタデータ） (2021-12-07T10:47:07Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)
DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2019-12-27T02:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。