論文の概要: A Mutually Reinforced Framework for Pretrained Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2202.13802v1
- Date: Mon, 28 Feb 2022 14:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 22:02:51.835919
- Title: A Mutually Reinforced Framework for Pretrained Sentence Embeddings
- Title(参考訳): 事前学習文埋め込みのための相互強化フレームワーク
- Authors: Junhan Yang, Zheng Liu, Shitao Xiao, Jianxun Lian, Lijun Wu, Defu
Lian, Guangzhong Sun, Xing Xie
- Abstract要約: InfoCSEは高品質な文埋め込みを学習するための新しいフレームワークである。
文表現モデル自体を利用して、以下の反復的な自己スーパービジョンプロセスを実現する。
言い換えれば、表現学習とデータアノテーションは相互に強化され、強い自己超越効果が導出される。
- 参考スコア(独自算出の注目度): 49.297766436632685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of labeled data is a major obstacle to learning high-quality
sentence embeddings. Recently, self-supervised contrastive learning (SCL) is
regarded as a promising way to address this problem. However, the existing
works mainly rely on hand-crafted data annotation heuristics to generate
positive training samples, which not only call for domain expertise and
laborious tuning, but are also prone to the following unfavorable cases: 1)
trivial positives, 2) coarse-grained positives, and 3) false positives. As a
result, the self-supervision's quality can be severely limited in reality. In
this work, we propose a novel framework InfoCSE to address the above problems.
Instead of relying on annotation heuristics defined by humans, it leverages the
sentence representation model itself and realizes the following iterative
self-supervision process: on one hand, the improvement of sentence
representation may contribute to the quality of data annotation; on the other
hand, more effective data annotation helps to generate high-quality positive
samples, which will further improve the current sentence representation model.
In other words, the representation learning and data annotation become mutually
reinforced, where a strong self-supervision effect can be derived. Extensive
experiments are performed based on three benchmark datasets, where notable
improvements can be achieved against the existing SCL-based methods.
- Abstract(参考訳): ラベル付きデータの欠如は、高品質な文埋め込みを学ぶ上で大きな障害となる。
近年,scl (self-supervised contrastive learning) は,この問題に対処する有望な方法と考えられている。
しかし、既存の研究は主に、ドメインの専門知識と精巧なチューニングを求めるだけでなく、次のような好ましくないケースを伴って、ポジティブなトレーニングサンプルを生成するために手作りのデータアノテーションヒューリスティックに頼っている。
1)自明な陽性。
2)粗粒度陽性,及び
3)偽陽性。
結果として、自己超越の質は現実的に著しく制限される。
本稿では,上記の問題に対処する新しいフレームワークInfoCSEを提案する。
人間によって定義されたアノテーションのヒューリスティックスに頼る代わりに、文表現モデル自体を利用し、以下の反復的な自己超越プロセスを実現する。一方、文表現の改善は、データアノテーションの品質に寄与する可能性があるが、一方で、より効果的なデータアノテーションは、高品質な正のサンプルを生成するのに役立つため、現在の文表現モデルをさらに改善する。
言い換えれば、表現学習とデータアノテーションは相互に強化され、強力な自己スーパービジョン効果が導出される。
3つのベンチマークデータセットに基づいて広範な実験が行われ、既存のsclベースのメソッドに対して注目すべき改善が達成される。
関連論文リスト
- The Bad Batches: Enhancing Self-Supervised Learning in Image Classification Through Representative Batch Curation [1.519321208145928]
人間の監督なしに堅牢な表現を学ぶことの追求は、長年にわたる課題である。
本稿では,Fr'echet ResNet Distance(FRD)によるペアワイズ類似性計算を用いて,偽正負負対と偽負対の影響を緩和する。
提案手法の有効性は,STL10で87.74%,Flower102データセットで99.31%,自己教師付きコントラスト表現で訓練された線形分類器によって実証された。
論文 参考訳(メタデータ) (2024-03-28T17:04:07Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Generic Semi-Supervised Adversarial Subject Translation for Sensor-Based
Human Activity Recognition [6.2997667081978825]
本稿では,人間活動認識における半教師付きドメイン適応のための,新しい汎用的で堅牢なアプローチを提案する。
本手法は,対象対象対象と対象対象対象対象からのみ注釈付きサンプルからの知識を活用することにより,問題点に対処するための敵対的枠組みの利点を生かしている。
その結果,提案手法が最先端手法に対して有効であることを示し,オポチュニティ,LISSI,PAMAP2データセットの高レベルのアクティビティ認識指標を最大13%,4%,13%改善した。
論文 参考訳(メタデータ) (2020-11-11T12:16:23Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z) - On Positive-Unlabeled Classification in GAN [130.43248168149432]
本稿では,標準GANに対する肯定的かつ未ラベルの分類問題を定義する。
その後、GANにおける差別者の訓練を安定させる新しい手法が導かれる。
論文 参考訳(メタデータ) (2020-02-04T05:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。