論文の概要: tasksource: A Dataset Harmonization Framework for Streamlined NLP
Multi-Task Learning and Evaluation
- arxiv url: http://arxiv.org/abs/2301.05948v3
- Date: Tue, 16 May 2023 08:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 19:07:52.310507
- Title: tasksource: A Dataset Harmonization Framework for Streamlined NLP
Multi-Task Learning and Evaluation
- Title(参考訳): Tasksource: ストリーミングNLPマルチタスク学習と評価のためのデータセット調和フレームワーク
- Authors: Damien Sileo
- Abstract要約: 500以上の英語タスクのためのデータセットアノテーションフレームワークとデータセットアノテーションをリリースします。
これらのアノテーションには、すべてのデータセットのインプットやラベルとして使用される列の名前などのメタデータが含まれている。
タスクソースのタスクに対してマルチタスクのテキストエンコーダを微調整し、外部評価において同等の大きさの公開テキストエンコーダよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 2.869669835645836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The HuggingFace Datasets Hub hosts thousands of datasets, offering exciting
opportunities for language model training and evaluation. However, datasets for
a specific task type often have different schemas, making harmonization
challenging. Multi-task training or evaluation necessitates manual work to fit
data into task templates. Several initiatives independently tackle this issue
by releasing harmonized datasets or providing harmonization codes to preprocess
datasets into a consistent format. We identify patterns across previous
preprocessing efforts, such as column name mapping and extracting specific
sub-fields from structured data in a column. We then propose a structured
annotation framework that ensures our annotations are fully exposed and not
hidden within unstructured code. We release a dataset annotation framework and
dataset annotations for more than 500 English
tasks\footnote{\url{https://github.com/sileod/tasksource}}. These annotations
include metadata, such as the names of columns to be used as input or labels
for all datasets, which can save time for future dataset preprocessing,
regardless of whether our framework is utilized. We fine-tune a multi-task text
encoder on all tasksource tasks, outperforming every publicly available text
encoder of comparable size in an external evaluation.
- Abstract(参考訳): HuggingFace Datasets Hubは数千のデータセットをホストし、言語モデルのトレーニングと評価のエキサイティングな機会を提供する。
しかし、特定のタスクタイプのデータセットは、しばしば異なるスキーマを持ち、調和が難しい。
マルチタスクトレーニングや評価は、タスクテンプレートにデータに適合する手作業を必要とする。
いくつかのイニシアティブは、調和したデータセットをリリースするか、データセットを一貫したフォーマットに前処理するための調和コードを提供することで、独立してこの問題に取り組む。
カラム名マッピングや、カラム内の構造化データから特定のサブフィールドを抽出するなど、以前の前処理作業のパターンを特定します。
次に、アノテーションが完全に公開され、構造化されていないコードの中に隠されていないことを保証する構造化アノテーションフレームワークを提案します。
私たちは、500以上の英語タスクのためのデータセットアノテーションフレームワークとデータセットアノテーションをリリースします。
これらのアノテーションには、すべてのデータセットの入力またはラベルとして使用する列の名前などのメタデータが含まれています。
全てのタスクソースタスクでマルチタスクのテキストエンコーダを微調整し、外部評価において同等の大きさの公開テキストエンコーダを上回らせます。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Thinking Like an Annotator: Generation of Dataset Labeling Instructions [59.603239753484345]
本稿では、公開されていないラベリング命令に対処するため、新しいタスクであるラベリング命令生成を導入する。
1)データセット内のカテゴリ毎に視覚的に代表されるサンプルのセットを生成し,2)サンプルに対応するテキストラベルを提供する。
このフレームワークは人間のアノテーションのプロキシとして機能し、最終的なラベル付け命令セットを生成し、その品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-06-24T18:32:48Z) - DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model [42.49953563682122]
本稿では,汎用マルチタスクセグメンテーションモデルDaTaSegを提案する。
すべてのタスクに共有表現(クラス予測を伴うマスク提案)を使用します。
また、弱いスーパービジョンを活用し、セグメンテーションモデルはより安価なバウンディングボックスアノテーションの恩恵を受けることができます。
論文 参考訳(メタデータ) (2023-06-02T17:59:24Z) - Cross-TOP: Zero-Shot Cross-Schema Task-Oriented Parsing [5.5947246682911205]
Cross-TOPは、与えられた垂直領域における複雑な意味解析のためのゼロショット法である。
また,Cross-TOPはトレーニングデータを必要とすることなく,未確認のタスクに対して高い精度を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-06-10T20:50:08Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。