論文の概要: PAUSE: Positive and Annealed Unlabeled Sentence Embedding
- arxiv url: http://arxiv.org/abs/2109.03155v1
- Date: Tue, 7 Sep 2021 15:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:54:10.844221
- Title: PAUSE: Positive and Annealed Unlabeled Sentence Embedding
- Title(参考訳): ポーズ:ポジティブ、アニールなしの文埋め込み
- Authors: Lele Cao, Emil Larsson, Vilhelm von Ehrenheim, Dhiana Deva Cavalcanti
Rocha, Anna Martin, Sonja Horn
- Abstract要約: 部分的にラベル付けされたデータセットから文の埋め込みを学習するための汎用的でエンドツーエンドなアプローチを提案する。
ラベル付き文ペアのごく一部を用いて,PAUSEが,時として最先端の結果を上回ることを実験的に示す。
- 参考スコア(独自算出の注目度): 0.4334105740533728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence embedding refers to a set of effective and versatile techniques for
converting raw text into numerical vector representations that can be used in a
wide range of natural language processing (NLP) applications. The majority of
these techniques are either supervised or unsupervised. Compared to the
unsupervised methods, the supervised ones make less assumptions about
optimization objectives and usually achieve better results. However, the
training requires a large amount of labeled sentence pairs, which is not
available in many industrial scenarios. To that end, we propose a generic and
end-to-end approach -- PAUSE (Positive and Annealed Unlabeled Sentence
Embedding), capable of learning high-quality sentence embeddings from a
partially labeled dataset. We experimentally show that PAUSE achieves, and
sometimes surpasses, state-of-the-art results using only a small fraction of
labeled sentence pairs on various benchmark tasks. When applied to a real
industrial use case where labeled samples are scarce, PAUSE encourages us to
extend our dataset without the liability of extensive manual annotation work.
- Abstract(参考訳): 文埋め込みとは、自然言語処理(NLP)の幅広い用途で使用できる、原文を数値ベクトル表現に変換するための、効果的で汎用的な技法のセットである。
これらの技術の大部分は教師なしまたは教師なしである。
教師なし手法と比較して、教師なし手法は最適化目標に対する仮定を少なくし、通常はより良い結果を得る。
しかし、訓練には大量のラベル付き文ペアが必要であり、多くの産業シナリオでは利用できない。
そこで本研究では,部分ラベル付きデータセットから高品質な文埋め込みを学習可能な,汎用的でエンドツーエンドなポーズ(ポジティブでアニールされていない文埋め込み)手法を提案する。
PAUSEは,様々なベンチマークタスクにおいて,少数のラベル付き文ペアのみを用いて,最先端の成果を達成し,時には上回ることを示す。
ラベル付きサンプルが不足している実際の産業ユースケースに適用した場合、PAUSEは広範な手作業によるアノテーション作業の責任なしにデータセットを拡張することを推奨します。
関連論文リスト
- A Unified Label-Aware Contrastive Learning Framework for Few-Shot Named Entity Recognition [6.468625143772815]
ラベル認識型トークンレベルのコントラスト学習フレームワークを提案する。
提案手法は,ラベルのセマンティクスを接尾辞のプロンプトとして活用することでコンテキストを豊かにする。
コンテキストネイティブとコンテキストラベルの対比学習目標を同時に最適化する。
論文 参考訳(メタデータ) (2024-04-26T06:19:21Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - Positive Unlabeled Contrastive Learning [14.975173394072053]
自己教師型事前学習パラダイムを古典的正の未ラベル(PU)設定に拡張する。
PU固有のクラスタリング手法を用いて,ラベルのないサンプルを擬似ラベル付けする手法を開発した。
提案手法は,いくつかの標準PUベンチマークデータセットに対して,最先端のPU手法を手作業で上回っている。
論文 参考訳(メタデータ) (2022-06-01T20:16:32Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Semi-supervised Active Learning for Instance Segmentation via Scoring
Predictions [25.408505612498423]
インスタンスセグメンテーションのための新規かつ原則的な半教師付きアクティブ学習フレームワークを提案する。
具体的には,クラス,バウンディングボックス,マスクの手がかりを明示的に評価するトリプレットスコア予測(tsp)という不確実性サンプリング戦略を提案する。
医用画像データセットを用いた結果から,提案手法が有意義な方法で利用可能なデータから知識を具現化することを示す。
論文 参考訳(メタデータ) (2020-12-09T02:36:52Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。