論文の概要: CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation
- arxiv url: http://arxiv.org/abs/2409.02098v1
- Date: Tue, 3 Sep 2024 17:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 00:04:31.236054
- Title: CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation
- Title(参考訳): データセットのCRAFT:コーパス検索と拡張によるタスク特異的な合成データセット生成
- Authors: Ingo Ziegler, Abdullatif Köksal, Desmond Elliott, Hinrich Schütze,
- Abstract要約: 合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
- 参考スコア(独自算出の注目度): 51.2289822267563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building high-quality datasets for specialized tasks is a time-consuming and resource-intensive process that often requires specialized domain knowledge. We propose Corpus Retrieval and Augmentation for Fine-Tuning (CRAFT), a method for generating synthetic datasets, given a small number of user-written few-shots that demonstrate the task to be performed. Given the few-shot examples, we use large-scale public web-crawled corpora and similarity-based document retrieval to find other relevant human-written documents. Lastly, instruction-tuned large language models (LLMs) augment the retrieved documents into custom-formatted task samples, which then can be used for fine-tuning. We demonstrate that CRAFT can efficiently generate large-scale task-specific training datasets for four diverse tasks: biology question-answering (QA), medicine QA and commonsense QA as well as summarization. Our experiments show that CRAFT-based models outperform or achieve comparable performance to general LLMs for QA tasks, while CRAFT-based summarization models outperform models trained on human-curated data by 46 preference points.
- Abstract(参考訳): 専門的なタスクのための高品質なデータセットを構築することは、しばしば専門的なドメイン知識を必要とする時間とリソース集約的なプロセスである。
そこで我々は,合成データセットを生成する手法であるCorpus Retrieval and Augmentation for Fine-Tuning (CRAFT)を提案する。
例を挙げると, 大規模公開ウェブクローラと類似性に基づく文書検索を用いて, 関連文書の検索を行う。
最後に、命令調整された大きな言語モデル(LLM)は、検索した文書をカスタムフォーマットのタスクサンプルに拡張し、微調整に使用することができる。
CRAFTは,生物質問応答(QA),医学QA,常識QA,要約の4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
実験の結果、CRAFTに基づくモデルでは、QAタスクの一般的なLLMよりも優れ、あるいは同等の性能が得られ、一方、CRAFTに基づく要約モデルは、46の選好点でトレーニングされたモデルよりも優れていた。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks [0.0]
我々は,小さなエンコーダモデルであると同時に,様々な情報抽出タスクに使用できる新しい種類のGLiNERモデルを導入する。
我々のモデルは,ゼロショットNERベンチマークにおけるSoTA性能を達成し,質問応答,要約,関係抽出タスクにおける主要な性能を実現した。
論文 参考訳(メタデータ) (2024-06-14T13:54:29Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - Automated Contrastive Learning Strategy Search for Time Series [48.68664732145665]
時系列データセットやタスクに対するコントラスト学習(AutoCL)を自動的に学習する,MicrosoftのAutomated Machine Learning(AutoML)プラクティスを提示する。
まず,データ拡張,埋め込み変換,コントラッシブなペア構成,コントラスト的な損失を網羅した,3時間1012ドルの探索空間を構築した。
さらに,評価タスクの性能からCLSを最適化し,空間内で有効なCLSを得る効率的な強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T11:24:14Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Responsive parallelized architecture for deploying deep learning models
in production environments [0.10152838128195467]
リクルーターは、カリキュラムヴィタエ(CV)文書を閲覧することで、求職者の候補を簡単にショートリストできる。
非構造化文書 CV は候補者のポートフォリオを保持し、詳細をリストアップするエンティティを命名する。
本研究の目的は、CVエンティティを体系的に予測するWeb指向で応答性の高い計算パイプラインの設計と提案である。
論文 参考訳(メタデータ) (2021-12-15T04:22:56Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。