論文の概要: TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning
- arxiv url: http://arxiv.org/abs/2104.06979v1
- Date: Wed, 14 Apr 2021 17:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 15:05:27.314651
- Title: TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning
- Title(参考訳): TSDAE:教師なし文埋め込み学習のためのトランスフォーマーに基づくシークエンシング自動エンコーダ
- Authors: Kexin Wang, Nils Reimers, Iryna Gurevych
- Abstract要約: TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
- 参考スコア(独自算出の注目度): 53.32740707197856
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learning sentence embeddings often requires large amount of labeled data.
However, for most tasks and domains, labeled data is seldom available and
creating it is expensive. In this work, we present a new state-of-the-art
unsupervised method based on pre-trained Transformers and Sequential Denoising
Auto-Encoder (TSDAE) which outperforms previous approaches by up to 6.4 points.
It can achieve up to 93.1% of the performance of in-domain supervised
approaches. Further, we show that TSDAE is a strong pre-training method for
learning sentence embeddings, significantly outperforming other approaches like
Masked Language Model.
A crucial shortcoming of previous studies is the narrow evaluation: Most work
mainly evaluates on the single task of Semantic Textual Similarity (STS), which
does not require any domain knowledge. It is unclear if these proposed methods
generalize to other domains and tasks. We fill this gap and evaluate TSDAE and
other recent approaches on four different datasets from heterogeneous domains.
- Abstract(参考訳): 文埋め込みの学習には、しばしば大量のラベル付きデータが必要である。
しかし、ほとんどのタスクやドメインでは、ラベル付きデータはほとんど利用できず、作成は高価である。
本稿では,事前学習されたトランスフォーマと逐次デノージングオートエンコーダ(tsdae)に基づく,従来のアプローチを最大6.4ポイント上回る,最先端の非教師なし手法を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
さらに, TSDAEは文の埋め込みを学習するための強力な事前学習手法であり, Masked Language Model などの他の手法よりも優れていることを示す。
従来の研究の重大な欠点は、狭い評価である: ほとんどの仕事は、ドメイン知識を必要としないセマンティックテキスト類似性(sts)の1つのタスクで主に評価される。
提案手法が他の領域やタスクに一般化されるかどうかは不明である。
このギャップを埋め、異種ドメインの4つの異なるデータセットに対するtsdaeや他の最近のアプローチを評価します。
関連論文リスト
- LE-UDA: Label-efficient unsupervised domain adaptation for medical image
segmentation [24.655779957716558]
ラベル有効非教師付きドメイン適応(LE-UDA)と呼ばれる新規で汎用的なフレームワークを提案する。
LE-UDAでは、両ドメイン間の知識伝達のための自己認識一貫性と、UDAの機能アライメントを向上するために自己認識学習モジュールを構築している。
実験結果から,提案するLE-UDAは,限られたソースラベルを有効活用し,ドメイン間セグメンテーション性能を向上し,文献における最先端のUDAアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-05T07:47:35Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - Flexible deep transfer learning by separate feature embeddings and
manifold alignment [0.0]
オブジェクト認識は、業界と防衛において重要な存在である。
残念ながら、既存のラベル付きデータセットでトレーニングされたアルゴリズムは、データ分布が一致しないため、直接新しいデータに一般化しない。
本稿では,各領域の特徴抽出を個別に学習することで,この制限を克服する新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-22T19:24:44Z) - Knowledge Distillation for BERT Unsupervised Domain Adaptation [2.969705152497174]
トレーニング済みの言語モデルであるBERTは、さまざまな自然言語処理タスクで大幅なパフォーマンス向上を実現している。
蒸留による逆順応法(AAD)を提案する。
ドメイン間感情分類におけるアプローチを30組のドメイン対で評価した。
論文 参考訳(メタデータ) (2020-10-22T06:51:24Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。