論文の概要: MultiCQA: Zero-Shot Transfer of Self-Supervised Text Matching Models on
a Massive Scale
- arxiv url: http://arxiv.org/abs/2010.00980v1
- Date: Fri, 2 Oct 2020 13:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 02:10:26.873470
- Title: MultiCQA: Zero-Shot Transfer of Self-Supervised Text Matching Models on
a Massive Scale
- Title(参考訳): multicqa:大規模な自己教師付きテキストマッチングモデルのゼロショット転送
- Authors: Andreas R\"uckl\'e, Jonas Pfeiffer, Iryna Gurevych
- Abstract要約: テキストマッチングモデルのゼロショット転送能力を大規模に検討し,140個のソースドメイン上での自己教師型トレーニングを行った。
すべての140モデルが驚くほどうまく転送され、ほとんどのモデルが一般的なIRベースラインより大幅に優れています。
- 参考スコア(独自算出の注目度): 64.11709427403008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the zero-shot transfer capabilities of text matching models on a
massive scale, by self-supervised training on 140 source domains from community
question answering forums in English. We investigate the model performances on
nine benchmarks of answer selection and question similarity tasks, and show
that all 140 models transfer surprisingly well, where the large majority of
models substantially outperforms common IR baselines. We also demonstrate that
considering a broad selection of source domains is crucial for obtaining the
best zero-shot transfer performances, which contrasts the standard procedure
that merely relies on the largest and most similar domains. In addition, we
extensively study how to best combine multiple source domains. We propose to
incorporate self-supervised with supervised multi-task learning on all
available source domains. Our best zero-shot transfer model considerably
outperforms in-domain BERT and the previous state of the art on six benchmarks.
Fine-tuning of our model with in-domain data results in additional large gains
and achieves the new state of the art on all nine benchmarks.
- Abstract(参考訳): テキストマッチングモデルのゼロショット転送能力を大規模に研究し、コミュニティ質問応答フォーラムから140のソースドメインを自己教師する訓練を行った。
回答選択と質問の類似性タスクの9つのベンチマークでモデル性能を調査し、140のモデルが驚くほどよく移動し、ほとんどのモデルが一般的なirベースラインを実質的に上回っていることを示した。
また、ソース領域の広い選択を考えることは、最大かつ最も類似したドメインに依存する標準手順とは対照的な、最高のゼロショット転送性能を得るためには不可欠であることを示す。
さらに,複数のソースドメインを最もよく結合する方法を幅広く研究した。
我々は,教師付きマルチタスク学習を利用可能なすべてのソースドメインに組み込むことを提案する。
我々の最高のゼロショット転送モデルは6つのベンチマークで、ドメイン内のBERTと過去の最先端技術よりもかなり優れています。
ドメイン内データによるモデルの微調整により,さらに大きなゲインが得られ,9つのベンチマークの新たな状態が達成される。
関連論文リスト
- DG-TTA: Out-of-domain medical image segmentation through Domain
Generalization and Test-Time Adaptation [47.03645745525752]
本稿では、ドメインの一般化とテスト時間適応を組み合わせることで、未確認対象領域で事前学習したモデルを再利用するための非常に効果的なアプローチを提案する。
本手法は,事前訓練した全身CTモデルと組み合わせることで,MR画像を高精度に分割できることを実証する。
論文 参考訳(メタデータ) (2023-12-11T10:26:21Z) - Choosing Wisely and Learning Deeply: Selective Cross-Modality
Distillation via CLIP for Domain Generalization [13.837406082703756]
ドメイン一般化(Domain Generalization, DG)は、複数のドメインにまたがるモデルをトレーニングし、見えないドメインでテストすることを目指している。
ドメイン一般化のための選択的クロスモーダル蒸留法(Selective Cross-Modality Distillation for Domain Generalization, SCMD)を提案する。
SCMDは大規模な視覚言語モデル、特にCLIPモデルの能力を活用して、より効率的なモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-26T00:06:12Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - KU-DMIS-MSRA at RadSum23: Pre-trained Vision-Language Model for
Radiology Report Summarization [29.443550756161667]
CheXOFAは胸部X線領域のための新しい訓練済み視覚言語モデル(VLM)である。
ドメイン固有のタスクを単純なシーケンス・ツー・シーケンススキーマに統合する。
我々のシステムは、隠れテストセットのためのRadSum23のリーダーボードで1位を獲得します。
論文 参考訳(メタデータ) (2023-07-10T21:18:01Z) - A Novel Mix-normalization Method for Generalizable Multi-source Person
Re-identification [49.548815417844786]
人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。
モデルがソースドメインに過度に適合するため、教師付きモデルを任意の未確認領域に直接転送することは困難である。
ドメイン・アウェア・ミックス正規化(DMN)とドメイン・ウェア・センター正規化(DCR)からなるMixNormを提案する。
論文 参考訳(メタデータ) (2022-01-24T18:09:38Z) - Efficient Domain Adaptation of Language Models via Adaptive Tokenization [5.058301279065432]
ドメイン固有のサブワードシーケンスは,ベースおよびドメイン固有のコーパスの条件付きトークン分布の分岐から,直接的に決定可能であることを示す。
我々の手法は、トークン化器の強化を用いた他の手法よりも、より小さなモデルで、トレーニングや推論の時間が少なくなります。
論文 参考訳(メタデータ) (2021-09-15T17:51:27Z) - Learning to Generate Novel Domains for Domain Generalization [115.21519842245752]
本稿では,未知の領域によく一般化するモデルとして,複数のソースドメインから学習するタスクに焦点を当てる。
我々は、擬似ノーベル領域からデータを合成し、ソースドメインを増強するためにデータジェネレータを用いる。
我々の手法であるL2A-OTは、4つのベンチマークデータセット上で現在最先端のDG手法より優れています。
論文 参考訳(メタデータ) (2020-07-07T09:34:17Z) - Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog [70.79442700890843]
本稿では,対象ドメインと各ドメインの関連性を自動的に活用する新しい動的核融合ネットワーク(DF-Net)を提案する。
トレーニングデータが少ないと、平均13.9%の事前最良モデルを上回り、転送可能性を示す。
論文 参考訳(メタデータ) (2020-04-23T08:17:22Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。