論文の概要: An Unsupervised Sentence Embedding Method by Mutual Information
Maximization
- arxiv url: http://arxiv.org/abs/2009.12061v2
- Date: Fri, 5 Feb 2021 03:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:22:34.744951
- Title: An Unsupervised Sentence Embedding Method by Mutual Information
Maximization
- Title(参考訳): 相互情報最大化による教師なし文埋め込み手法
- Authors: Yan Zhang, Ruidan He, Zuozhu Liu, Kwan Hui Lim, Lidong Bing
- Abstract要約: SBERT(Sentence BERT)はクラスタリングやセマンティックサーチのような文対タスクでは非効率である。
本稿では,BERT上での軽量な拡張と,新たな自己教師型学習目標を提案する。
我々の方法は、異なるドメイン固有のコーパスに適用できるようなラベル付きデータの可用性に制限されない。
- 参考スコア(独自算出の注目度): 34.947950543830686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT is inefficient for sentence-pair tasks such as clustering or semantic
search as it needs to evaluate combinatorially many sentence pairs which is
very time-consuming. Sentence BERT (SBERT) attempted to solve this challenge by
learning semantically meaningful representations of single sentences, such that
similarity comparison can be easily accessed. However, SBERT is trained on
corpus with high-quality labeled sentence pairs, which limits its application
to tasks where labeled data is extremely scarce. In this paper, we propose a
lightweight extension on top of BERT and a novel self-supervised learning
objective based on mutual information maximization strategies to derive
meaningful sentence embeddings in an unsupervised manner. Unlike SBERT, our
method is not restricted by the availability of labeled data, such that it can
be applied on different domain-specific corpus. Experimental results show that
the proposed method significantly outperforms other unsupervised sentence
embedding baselines on common semantic textual similarity (STS) tasks and
downstream supervised tasks. It also outperforms SBERT in a setting where
in-domain labeled data is not available, and achieves performance competitive
with supervised methods on various tasks.
- Abstract(参考訳): BERTはクラスタリングやセマンティックサーチのような文対タスクでは非効率であり、組合せ的に非常に時間を要する多くの文対を評価する必要がある。
SBERT(Sentence BERT)は、類似性の比較が容易にアクセスできるように単一の文の意味論的表現を学習することで、この問題を解決しようとした。
しかし、SBERTは高品質なラベル付き文対を持つコーパスで訓練されており、ラベル付きデータが極めて少ないタスクに制限される。
本稿では,有意味文の埋め込みを教師なし方式で導出するための相互情報最大化戦略に基づく,bert上の軽量拡張と自己教師付き学習目標を提案する。
SBERTとは異なり、この手法はラベル付きデータの可用性に制限されず、異なるドメイン固有のコーパスに適用できる。
実験の結果,提案手法は,共通意味的テキスト類似性(STS)タスクと下流教師付きタスクに基づいて,他の教師なし文の埋め込みベースラインを著しく上回ることがわかった。
また、ドメイン内のラベル付きデータが利用できない環境ではSBERTよりも優れており、様々なタスクにおいて教師付きメソッドと競合するパフォーマンスを実現する。
関連論文リスト
- Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - PromptBERT: Improving BERT Sentence Embeddings with Prompts [95.45347849834765]
本稿では,トークン埋め込みのバイアスを低減し,元のBERT層をより効果的にするためのプロンプトベースの文埋め込み手法を提案する。
また,教師なし設定と教師なし設定とのパフォーマンスギャップを大幅に短縮するテンプレート認知技術により,教師なし学習の新たな目標を提案する。
我々の微調整手法は教師なし設定と教師なし設定の両方において最先端のSimCSEよりも優れている。
論文 参考訳(メタデータ) (2022-01-12T06:54:21Z) - MDERank: A Masked Document Embedding Rank Approach for Unsupervised
Keyphrase Extraction [41.941098507759015]
キーワードは、コアコンテンツの簡潔な要約を提供するドキュメントのフレーズで、読者が記事が少しで何を言っているのかを理解するのに役立つ。
BERTをベースとしたモデルを用いて,MASK戦略を用いて候補キーフレーズの選択とランク付けを行う,新しい教師なしキーワード抽出手法を提案する。
論文 参考訳(メタデータ) (2021-10-13T11:29:17Z) - ConSERT: A Contrastive Framework for Self-Supervised Sentence
Representation Transfer [19.643512923368743]
本稿では,自己監督型文表現伝達のためのコントラストフレームワークであるConSERTを提案する。
ラベルのないテキストを利用することで、ConSERTはBERT由来の文表現の崩壊問題を解消する。
STSデータセットの実験では、ConSERTは以前の最先端よりも8%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2021-05-25T08:15:01Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Exploring Cross-sentence Contexts for Named Entity Recognition with BERT [1.4998865865537996]
本稿では, BERT モデルを用いた NER におけるクロス文情報の利用を5言語で検討する。
BERT入力に追加文の形でコンテキストを追加することで、テスト対象言語やモデル上でのNER性能が向上することがわかった。
そこで本稿では,文の様々な予測を組み合わせ,さらにNER性能を向上させるための簡単な手法であるCMV(Contextual Majority Voting)を提案する。
論文 参考訳(メタデータ) (2020-06-02T12:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。