論文の概要: On the Effectiveness of Dataset Embeddings in Mono-lingual,Multi-lingual
and Zero-shot Conditions
- arxiv url: http://arxiv.org/abs/2103.01273v1
- Date: Mon, 1 Mar 2021 19:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 04:00:15.606767
- Title: On the Effectiveness of Dataset Embeddings in Mono-lingual,Multi-lingual
and Zero-shot Conditions
- Title(参考訳): 単一言語, 多言語, ゼロショット条件におけるデータセット埋め込みの有効性について
- Authors: Rob van der Goot, Ahmet \"Ust\"un, Barbara Plank
- Abstract要約: モノリンガル設定、多言語設定、ゼロショット設定における予測データソースラベルにおけるデータセット埋め込みの効果を比較します。
形態素的タグ付け,補間,依存関係解析の3つのタスクを評価し,104のデータセット,66の言語,2つの異なるデータセットグループ化戦略を用いた。
- 参考スコア(独自算出の注目度): 18.755176247223616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent complementary strands of research have shown that leveraging
information on the data source through encoding their properties into
embeddings can lead to performance increase when training a single model on
heterogeneous data sources. However, it remains unclear in which situations
these dataset embeddings are most effective, because they are used in a large
variety of settings, languages and tasks. Furthermore, it is usually assumed
that gold information on the data source is available, and that the test data
is from a distribution seen during training. In this work, we compare the
effect of dataset embeddings in mono-lingual settings, multi-lingual settings,
and with predicted data source label in a zero-shot setting. We evaluate on
three morphosyntactic tasks: morphological tagging, lemmatization, and
dependency parsing, and use 104 datasets, 66 languages, and two different
dataset grouping strategies. Performance increases are highest when the
datasets are of the same language, and we know from which distribution the
test-instance is drawn. In contrast, for setups where the data is from an
unseen distribution, performance increase vanishes.
- Abstract(参考訳): 最近の相補的な研究は、その特性を埋め込みに符号化することで、データソースの情報を活用することで、不均一なデータソース上で単一のモデルをトレーニングする場合、パフォーマンスが向上することを示した。
しかし、これらのデータセットの埋め込みが最も効果的である状況は、さまざまな設定、言語、タスクで使用されているため、まだ不明です。
さらに、通常、データソースの金情報が利用可能であり、テストデータはトレーニング中に見られる分布からのものであると仮定されます。
本研究では,モノリンガル設定,多言語設定,予測データソースラベルにおけるデータセット埋め込みの効果をゼロショット設定で比較した。
形態素的タグ付け,補間,依存関係解析の3つのタスクを評価し,104のデータセット,66の言語,2つの異なるデータセットグループ化戦略を用いた。
データセットが同じ言語である場合、パフォーマンスの上昇が最も高く、テストインスタンスがどの分布に描画されているかが分かる。
対照的に、データが目に見えない分布から来る設定では、パフォーマンスが向上する。
関連論文リスト
- A deep Natural Language Inference predictor without language-specific
training data [44.26507854087991]
本研究では,言語固有の訓練データセットを使わずに,目的言語における文のペア間の推論関係(NLI)に対処するためのNLP手法を提案する。
我々は、同じトレーニング済みモデルの2つのインスタンスとともに、手動で翻訳される汎用翻訳データセットを利用する。
このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。
論文 参考訳(メタデータ) (2023-09-06T10:20:59Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings [13.097523786733872]
変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。
ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。
すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
論文 参考訳(メタデータ) (2021-12-07T10:47:07Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Exploring Monolingual Data for Neural Machine Translation with Knowledge
Distillation [10.745228927771915]
ニューラルマシン翻訳(nmt)のための知識蒸留訓練に含まれる2種類の単言語データについて検討する。
ソース側モノリンガルデータは,ソース側から得られたテストセットによって評価すると,モデルの性能が向上することがわかった。
また、ドメインが同じである限り、教師が使用するデータと同じデータを用いて、生徒モデルのトレーニングは不要であることを示す。
論文 参考訳(メタデータ) (2020-12-31T05:28:42Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。