論文の概要: A simple method for domain adaptation of sentence embeddings
- arxiv url: http://arxiv.org/abs/2008.11228v1
- Date: Tue, 25 Aug 2020 18:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 02:57:22.532522
- Title: A simple method for domain adaptation of sentence embeddings
- Title(参考訳): 文埋め込みのドメイン適応のための簡易手法
- Authors: Anna Kruspe
- Abstract要約: 本稿では,シムズアーキテクチャを用いて,Googleの普遍文(USE)を微調整するための簡易な普遍的手法を提案する。
我々は、このアプローチを様々なデータセットにどのように使うかを示し、類似した問題を表す異なるデータセットに結果を提示する。
- 参考スコア(独自算出の注目度): 2.418764377599508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained sentence embeddings have been shown to be very useful for a
variety of NLP tasks. Due to the fact that training such embeddings requires a
large amount of data, they are commonly trained on a variety of text data. An
adaptation to specific domains could improve results in many cases, but such a
finetuning is usually problem-dependent and poses the risk of over-adapting to
the data used for adaptation. In this paper, we present a simple universal
method for finetuning Google's Universal Sentence Encoder (USE) using a Siamese
architecture. We demonstrate how to use this approach for a variety of data
sets and present results on different data sets representing similar problems.
The approach is also compared to traditional finetuning on these data sets. As
a further advantage, the approach can be used for combining data sets with
different annotations. We also present an embedding finetuned on all data sets
in parallel.
- Abstract(参考訳): 事前訓練された文の埋め込みは、様々なNLPタスクに非常に有用であることが示されている。
このような埋め込みのトレーニングには大量のデータが必要であるため、さまざまなテキストデータに基づいてトレーニングされることが多い。
特定の領域への適応は多くのケースで結果を改善するが、そのような微調整は通常問題依存であり、適応に使用されるデータに過度に適応するリスクを引き起こす。
本稿では,Siameseアーキテクチャを用いて,GoogleのUniversal Sentence Encoder(USE)を微調整するための簡易なユニバーサル手法を提案する。
我々は,このアプローチを様々なデータセットに適用する方法を示し,類似した問題を表わす異なるデータセットに結果を提示する。
このアプローチは、これらのデータセットの従来の微調整と比較される。
さらに利点として、このアプローチはデータセットと異なるアノテーションを組み合わせるのに使うことができる。
また、すべてのデータセットに並列に埋め込まれた埋め込みも提示する。
関連論文リスト
- UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文 参考訳(メタデータ) (2023-11-08T01:27:34Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - Selecting Parallel In-domain Sentences for Neural Machine Translation
Using Monolingual Texts [0.0]
本稿では,機械翻訳作業のための汎用ドメイン(並列テキスト)コーパスからドメイン内データを選択する手法を提案する。
提案手法は,単言語ドメイン固有のデータセットと相似性に応じて,並列汎用ドメインデータ中の文をランク付けする。
次に、最も類似度の高い上位K文を選択して、特定のドメイン内データに合わせて調整された新しい機械翻訳システムを訓練する。
論文 参考訳(メタデータ) (2021-12-11T23:29:26Z) - Using Psuedolabels for training Sentiment Classifiers makes the model
generalize better across datasets [0.0]
パブリックな感情分類APIでは、ドメイン間のデータアノテート能力に制限のある、さまざまなタイプのデータに対してうまく機能する分類器をどうやって設定すればよいのか?
我々は、このデータセット上の異なるドメインと擬似ラベルから大量の無注釈データが与えられた場合、異なるデータセットにまたがってよりよく一般化される感情分類器を訓練できることを示した。
論文 参考訳(メタデータ) (2021-10-05T17:47:15Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z) - Improving QA Generalization by Concurrent Modeling of Multiple Biases [61.597362592536896]
既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれており、対応する評価セット上で高いパフォーマンスを達成することができる。
本稿では、トレーニングデータにおける複数のバイアスの同時モデリングにより、ドメイン内およびドメイン外両方のデータセットのパフォーマンスを改善するための一般的なフレームワークを提案する。
我々は,様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出的質問応答の枠組みを広く評価した。
論文 参考訳(メタデータ) (2020-10-07T11:18:49Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。