論文の概要: Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework
- arxiv url: http://arxiv.org/abs/2210.16798v1
- Date: Sun, 30 Oct 2022 10:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:59:31.616443
- Title: Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework
- Title(参考訳): 文生成・識別・コントラスト:半監督型文表現学習フレームワーク
- Authors: Yiming Chen, Yan Zhang, Bin Wang, Zuozhu Liu, Haizhou Li
- Abstract要約: 本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
- 参考スコア(独自算出の注目度): 68.04940365847543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most sentence embedding techniques heavily rely on expensive human-annotated
sentence pairs as the supervised signals. Despite the use of large-scale
unlabeled data, the performance of unsupervised methods typically lags far
behind that of the supervised counterparts in most downstream tasks. In this
work, we propose a semi-supervised sentence embedding framework, GenSE, that
effectively leverages large-scale unlabeled data. Our method include three
parts: 1) Generate: A generator/discriminator model is jointly trained to
synthesize sentence pairs from open-domain unlabeled corpus; 2) Discriminate:
Noisy sentence pairs are filtered out by the discriminator to acquire
high-quality positive and negative sentence pairs; 3) Contrast: A prompt-based
contrastive approach is presented for sentence representation learning with
both annotated and synthesized data. Comprehensive experiments show that GenSE
achieves an average correlation score of 85.19 on the STS datasets and
consistent performance improvement on four domain adaptation tasks,
significantly surpassing the state-of-the-art methods and convincingly
corroborating its effectiveness and generalization ability.Code, Synthetic data
and Models available at https://github.com/MatthewCYM/GenSE.
- Abstract(参考訳): ほとんどの文埋め込み技術は、教師付き信号として高価な人間の注釈文ペアに大きく依存している。
大規模なラベルなしデータを使用しているにもかかわらず、教師なしメソッドのパフォーマンスはたいてい、下流タスクの教師なしデータよりもずっと遅れている。
本研究では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
私たちの方法は3つの部分を含む。
1)生成:オープンドメイン未ラベルコーパスから文対を合成するジェネレータ/識別器モデルを共同で訓練する。
2 判別:騒がしい文対を判別者によりフィルタリングし、高品質な肯定的文対及び否定的文対を得る。
3)コントラスト:アノテートデータと合成データの両方を用いた文表現学習に対して,プロンプトに基づくコントラストアプローチを提案する。
総合的な実験により、GenSEはSTSデータセットの平均相関スコア85.19を達成し、4つのドメイン適応タスクにおける一貫したパフォーマンス改善を達成し、最先端のメソッドを大幅に上回り、その有効性と一般化能力を確実に相関させる。
関連論文リスト
- Prototypical Contrastive Learning through Alignment and Uniformity for
Recommendation [6.790779112538357]
提案するアンダーライン・アライメントとアンダーライン・ユニフォーマル性によるインダーライン型コントラスト学習について述べる。
具体的には、まず、原点グラフから異なる拡張点間の整合性を確保するために、潜時空間としてプロトタイプを提案する。
明示的な負の欠如は、インスタンスとプロトタイプ間の整合性損失を直接最適化することで、次元的な崩壊の問題が容易に生じることを意味する。
論文 参考訳(メタデータ) (2024-02-03T08:19:26Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - SenTest: Evaluating Robustness of Sentence Encoders [0.4194295877935868]
本研究は文エンコーダの堅牢性を評価することに焦点を当てる。
我々はその堅牢性を評価するためにいくつかの敵攻撃を用いる。
実験結果は文エンコーダの堅牢性を強く損なう。
論文 参考訳(メタデータ) (2023-11-29T15:21:35Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - SDA: Simple Discrete Augmentation for Contrastive Sentence Representation Learning [14.028140579482688]
SimCSEは、報告されているように、トリミング、単語削除、同義語置換といった個別の増強を驚くほど支配している。
我々は,句読点挿入,モーダル動詞,二重否定の3つの簡易かつ効果的な離散文拡張手法を開発した。
その結果,提案手法の優越性は一貫して向上した。
論文 参考訳(メタデータ) (2022-10-08T08:07:47Z) - Non-contrastive representation learning for intervals from well logs [58.70164460091879]
石油・ガス産業における表現学習問題は、ログデータに基づく表現を一定間隔で提供するモデルを構築することを目的としている。
可能なアプローチの1つは、自己教師付き学習(SSL)である。
私たちは、よくログするデータのための非コントラストSSLを最初に導入しました。
論文 参考訳(メタデータ) (2022-09-28T13:27:10Z) - Adversarial Dual-Student with Differentiable Spatial Warping for
Semi-Supervised Semantic Segmentation [70.2166826794421]
本研究では、教師なしデータ拡張を行うために、微分可能な幾何ワープを提案する。
また,平均教師数を改善するために,新しい対角的二重学習フレームワークを提案する。
我々のソリューションは、両方のデータセットで得られるパフォーマンスと最先端の結果を大幅に改善します。
論文 参考訳(メタデータ) (2022-03-05T17:36:17Z) - A Mutually Reinforced Framework for Pretrained Sentence Embeddings [49.297766436632685]
InfoCSEは高品質な文埋め込みを学習するための新しいフレームワークである。
文表現モデル自体を利用して、以下の反復的な自己スーパービジョンプロセスを実現する。
言い換えれば、表現学習とデータアノテーションは相互に強化され、強い自己超越効果が導出される。
論文 参考訳(メタデータ) (2022-02-28T14:00:16Z) - SentPWNet: A Unified Sentence Pair Weighting Network for Task-specific
Sentence Embedding [12.020634125787279]
本稿では,タスク固有の文の埋め込みを学習するための局所性重み付けと学習フレームワークを提案する。
我々のモデルであるSentPWNetは、各文の空間分布を局所性重みとして利用し、文対の情報レベルを示す。
論文 参考訳(メタデータ) (2020-05-22T18:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。