論文の概要: Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings
- arxiv url: http://arxiv.org/abs/2112.03625v1
- Date: Tue, 7 Dec 2021 10:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:25:35.303518
- Title: Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings
- Title(参考訳): 事前学習された言語モデル、複数のデータセット、データセット埋め込みによるパース
- Authors: Rob van der Goot and Miryam de Lhoneux
- Abstract要約: 変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。
ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。
すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
- 参考スコア(独自算出の注目度): 13.097523786733872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With an increase of dataset availability, the potential for learning from a
variety of data sources has increased. One particular method to improve
learning from multiple data sources is to embed the data source during
training. This allows the model to learn generalizable features as well as
distinguishing features between datasets. However, these dataset embeddings
have mostly been used before contextualized transformer-based embeddings were
introduced in the field of Natural Language Processing. In this work, we
compare two methods to embed datasets in a transformer-based multilingual
dependency parser, and perform an extensive evaluation. We show that: 1)
embedding the dataset is still beneficial with these models 2) performance
increases are highest when embedding the dataset at the encoder level 3)
unsurprisingly, we confirm that performance increases are highest for small
datasets and datasets with a low baseline score. 4) we show that training on
the combination of all datasets performs similarly to designing smaller
clusters based on language-relatedness.
- Abstract(参考訳): データセットの可用性の向上に伴い、さまざまなデータソースから学習する可能性も高まっている。
複数のデータソースからの学習を改善する方法のひとつに、トレーニング中にデータソースを埋め込む方法がある。
これにより、モデルは一般化可能な機能とデータセット間の特徴の区別を学ぶことができる。
しかし、これらのデータセット組込みは、自然言語処理の分野でコンテキスト化トランスフォーマーベースの組込みが導入される以前は、ほとんどが使用されていた。
本研究では,変換器を用いた多言語依存パーサにデータセットを埋め込む2つの手法を比較し,広範囲な評価を行う。
ご覧の通りです
1)データセットの埋め込みは、これらのモデルにはまだ有益である
2) エンコーダレベルでデータセットを埋め込む場合, 性能向上が最も大きい。
3) 当然のことながら, 性能向上は, ベースラインスコアが低い小さなデータセットやデータセットに対して高いことが確認できた。
4)全てのデータセットの組み合わせによるトレーニングは,言語関連性に基づいて,より小さなクラスタを設計するのと同じように動作することを示す。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。
我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。
パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文 参考訳(メタデータ) (2021-09-28T17:08:22Z) - On the Effectiveness of Dataset Embeddings in Mono-lingual,Multi-lingual
and Zero-shot Conditions [18.755176247223616]
モノリンガル設定、多言語設定、ゼロショット設定における予測データソースラベルにおけるデータセット埋め込みの効果を比較します。
形態素的タグ付け,補間,依存関係解析の3つのタスクを評価し,104のデータセット,66の言語,2つの異なるデータセットグループ化戦略を用いた。
論文 参考訳(メタデータ) (2021-03-01T19:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。