論文の概要: $\texttt{tasksource}$: Structured Dataset Preprocessing Annotations for
Frictionless Extreme Multi-Task Learning and Evaluation
- arxiv url: http://arxiv.org/abs/2301.05948v1
- Date: Sat, 14 Jan 2023 16:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 18:07:18.821005
- Title: $\texttt{tasksource}$: Structured Dataset Preprocessing Annotations for
Frictionless Extreme Multi-Task Learning and Evaluation
- Title(参考訳): $\texttt{tasksource}$: Frictionless Extreme Multi-Task Learning and Evaluationのための構造化データセット前処理アノテーション
- Authors: Damien Sileo
- Abstract要約: 400以上の英語タスクのためのデータセットアノテーションフレームワークとデータセットアノテーションをリリースする。
これらのアノテーションは、すべてのデータセットのインプットやラベルとして使用されるべき列の名前のようなメタデータを提供します。
タスクソースのタスクに対してマルチタスクのテキストエンコーダを微調整し、外部評価において同等の大きさの公開可能なテキストエンコーダよりも優れています。
- 参考スコア(独自算出の注目度): 2.869669835645836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The HuggingFace Datasets Hub hosts thousands of datasets. This provides
exciting opportunities for language model training and evaluation. However, the
datasets for a given type of task are stored with different schemas, and
harmonization is harder than it seems (https://xkcd.com/927/). Multi-task
training or evaluation requires manual work to fit data into task templates.
Various initiatives independently address this problem by releasing the
harmonized datasets or harmonization codes to preprocess datasets to the same
format. We identify patterns across previous preprocessings, e.g. mapping of
column names, and extraction of a specific sub-field from structured data in a
column, and propose a structured annotation framework that makes our
annotations fully exposed and not buried in unstructured code. We release a
dataset annotation framework and dataset annotations for more than 400 English
tasks (https://github.com/sileod/tasksource). These annotations provide
metadata, like the name of the columns that should be used as input or labels
for all datasets, and can save time for future dataset preprocessings, even if
they do not use our framework. We fine-tune a multi-task text encoder on all
tasksource tasks, outperforming every publicly available text encoder of
comparable size on an external evaluation
https://hf.co/sileod/deberta-v3-base-tasksource-nli.
- Abstract(参考訳): HuggingFace Datasets Hubは数千のデータセットをホストする。
これは言語モデルのトレーニングと評価にエキサイティングな機会を提供します。
しかし、特定のタスクのデータセットは異なるスキーマで格納され、調和は見かけより難しい(https://xkcd.com/927/)。
マルチタスクトレーニングや評価は、タスクテンプレートにデータを適合させるために手作業を必要とする。
さまざまなイニシアチブが、同じフォーマットで前処理データセットに調和データセットや調和コードをリリースすることで、この問題に独立して対処している。
カラム名のマッピングや、カラム内の構造化データからの特定のサブフィールドの抽出など、以前の前処理にまたがるパターンを特定し、アノテーションを十分に公開し、非構造化コードに埋もれないように構造化アノテーションフレームワークを提案する。
400以上の英語タスクのためのデータセットアノテーションフレームワークとデータセットアノテーション(https://github.com/sileod/tasksource)をリリースします。
これらのアノテーションは、すべてのデータセットのインプットやラベルとして使用するべき列の名前のようなメタデータを提供し、フレームワークを使用しなくても、将来のデータセット前処理の時間を節約できる。
タスクソースのタスクに対してマルチタスクのテキストエンコーダを微調整し、外部評価 https://hf.co/sileod/deberta-v3-base-tasksource-nli で同等の大きさの公開可能なテキストエンコーダを全て上回ります。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Thinking Like an Annotator: Generation of Dataset Labeling Instructions [59.603239753484345]
本稿では、公開されていないラベリング命令に対処するため、新しいタスクであるラベリング命令生成を導入する。
1)データセット内のカテゴリ毎に視覚的に代表されるサンプルのセットを生成し,2)サンプルに対応するテキストラベルを提供する。
このフレームワークは人間のアノテーションのプロキシとして機能し、最終的なラベル付け命令セットを生成し、その品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-06-24T18:32:48Z) - DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model [42.49953563682122]
本稿では,汎用マルチタスクセグメンテーションモデルDaTaSegを提案する。
すべてのタスクに共有表現(クラス予測を伴うマスク提案)を使用します。
また、弱いスーパービジョンを活用し、セグメンテーションモデルはより安価なバウンディングボックスアノテーションの恩恵を受けることができます。
論文 参考訳(メタデータ) (2023-06-02T17:59:24Z) - Cross-TOP: Zero-Shot Cross-Schema Task-Oriented Parsing [5.5947246682911205]
Cross-TOPは、与えられた垂直領域における複雑な意味解析のためのゼロショット法である。
また,Cross-TOPはトレーニングデータを必要とすることなく,未確認のタスクに対して高い精度を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-06-10T20:50:08Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。