論文の概要: Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings
- arxiv url: http://arxiv.org/abs/2112.03625v1
- Date: Tue, 7 Dec 2021 10:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:25:35.303518
- Title: Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings
- Title(参考訳): 事前学習された言語モデル、複数のデータセット、データセット埋め込みによるパース
- Authors: Rob van der Goot and Miryam de Lhoneux
- Abstract要約: 変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。
ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。
すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
- 参考スコア(独自算出の注目度): 13.097523786733872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With an increase of dataset availability, the potential for learning from a
variety of data sources has increased. One particular method to improve
learning from multiple data sources is to embed the data source during
training. This allows the model to learn generalizable features as well as
distinguishing features between datasets. However, these dataset embeddings
have mostly been used before contextualized transformer-based embeddings were
introduced in the field of Natural Language Processing. In this work, we
compare two methods to embed datasets in a transformer-based multilingual
dependency parser, and perform an extensive evaluation. We show that: 1)
embedding the dataset is still beneficial with these models 2) performance
increases are highest when embedding the dataset at the encoder level 3)
unsurprisingly, we confirm that performance increases are highest for small
datasets and datasets with a low baseline score. 4) we show that training on
the combination of all datasets performs similarly to designing smaller
clusters based on language-relatedness.
- Abstract(参考訳): データセットの可用性の向上に伴い、さまざまなデータソースから学習する可能性も高まっている。
複数のデータソースからの学習を改善する方法のひとつに、トレーニング中にデータソースを埋め込む方法がある。
これにより、モデルは一般化可能な機能とデータセット間の特徴の区別を学ぶことができる。
しかし、これらのデータセット組込みは、自然言語処理の分野でコンテキスト化トランスフォーマーベースの組込みが導入される以前は、ほとんどが使用されていた。
本研究では,変換器を用いた多言語依存パーサにデータセットを埋め込む2つの手法を比較し,広範囲な評価を行う。
ご覧の通りです
1)データセットの埋め込みは、これらのモデルにはまだ有益である
2) エンコーダレベルでデータセットを埋め込む場合, 性能向上が最も大きい。
3) 当然のことながら, 性能向上は, ベースラインスコアが低い小さなデータセットやデータセットに対して高いことが確認できた。
4)全てのデータセットの組み合わせによるトレーニングは,言語関連性に基づいて,より小さなクラスタを設計するのと同じように動作することを示す。
関連論文リスト
- Imitation Learning Datasets: A Toolkit For Creating Datasets, Training
Agents and Benchmarking [0.9944647907864256]
模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。
多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされる。
この作業は、Imitation Learningデータセットを作成することで、これらの問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-03-01T14:18:46Z) - Constructing Multilingual Code Search Dataset Using Neural Machine
Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。
その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文 参考訳(メタデータ) (2023-06-27T16:42:36Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。
我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。
パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文 参考訳(メタデータ) (2021-09-28T17:08:22Z) - On the Effectiveness of Dataset Embeddings in Mono-lingual,Multi-lingual
and Zero-shot Conditions [18.755176247223616]
モノリンガル設定、多言語設定、ゼロショット設定における予測データソースラベルにおけるデータセット埋め込みの効果を比較します。
形態素的タグ付け,補間,依存関係解析の3つのタスクを評価し,104のデータセット,66の言語,2つの異なるデータセットグループ化戦略を用いた。
論文 参考訳(メタデータ) (2021-03-01T19:34:32Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。