論文の概要: AugCSE: Contrastive Sentence Embedding with Diverse Augmentations
- arxiv url: http://arxiv.org/abs/2210.13749v1
- Date: Thu, 20 Oct 2022 03:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 11:54:02.230117
- Title: AugCSE: Contrastive Sentence Embedding with Diverse Augmentations
- Title(参考訳): AugCSE: 異なる拡張を組み込んだコントラスト文
- Authors: Zilu Tang, Muhammed Yusuf Kocyigit, Derry Wijaya
- Abstract要約: AugCSEは、多種多様なデータ拡張を利用する統一的なフレームワークであり、より良い汎用的な文埋め込みモデルを実現する。
矛盾するコントラスト信号につながる多種多様な拡張は、より良い、より堅牢な文表現を生み出すために、テーピングできることが示される。
- 参考スコア(独自算出の注目度): 2.3572498744567127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation techniques have been proven useful in many applications in
NLP fields. Most augmentations are task-specific, and cannot be used as a
general-purpose tool. In our work, we present AugCSE, a unified framework to
utilize diverse sets of data augmentations to achieve a better, general
purpose, sentence embedding model. Building upon the latest sentence embedding
models, our approach uses a simple antagonistic discriminator that
differentiates the augmentation types. With the finetuning objective borrowed
from domain adaptation, we show that diverse augmentations, which often lead to
conflicting contrastive signals, can be tamed to produce a better and more
robust sentence representation. Our methods achieve state-of-the-art results on
downstream transfer tasks and perform competitively on semantic textual
similarity tasks, using only unsupervised data.
- Abstract(参考訳): データ拡張技術は、NLPフィールドにおける多くのアプリケーションで有用であることが証明されている。
ほとんどの拡張はタスク固有であり、汎用ツールとしては使用できない。
本稿では,AugCSEについて述べる。AugCSEは,多種多様なデータ拡張を利用する統一的なフレームワークで,より優れた汎用的な文埋め込みモデルを実現する。
最新の文埋め込みモデルに基づいて,本手法では,拡張型を区別する単純なアンタゴニスト判別器を用いる。
ドメイン適応から借用した微調整の目的により、相反するコントラスト信号につながる様々な拡張が、より良く、より頑健な文表現を生み出すために変更可能であることが示される。
提案手法は,ダウンストリーム転送タスクにおける最先端の成果を達成し,教師なしデータのみを用いて意味的テキスト類似性タスクを競合的に行う。
関連論文リスト
- GASE: Generatively Augmented Sentence Encoding [0.0]
本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-07T17:53:47Z) - AdvST: Revisiting Data Augmentations for Single Domain Generalization [39.55487584183931]
単一ドメインの一般化は、単一のソースドメインのデータを使用して、未知のターゲットドメインシフトに対して堅牢なモデルをトレーニングすることを目的としている。
セマンティクス変換としての学習可能なパラメータによる標準的なデータ拡張は、サンプルの特定のセマンティクスを操作できる。
本稿では,セマンティックス変換を用いたAdversarial Learning(AdvST)を提案する。
論文 参考訳(メタデータ) (2023-12-20T02:29:31Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - RangeAugment: Efficient Online Augmentation with Range Learning [54.61514286212455]
RangeAugmentは、個々の大きさと複合オーグメンテーション操作を効率よく学習する。
本研究では,RangeAugmentの4~5倍の精度で,最先端自動拡張手法の競争性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:55:54Z) - Feature Dropout: Revisiting the Role of Augmentations in Contrastive
Learning [7.6834562879925885]
最近の研究は、良い改善が特定の下流タスクに関してラベル保存であることを示唆している。
基礎モデル設定においてラベルのデストロイヤー化が有用であることを示す。
論文 参考訳(メタデータ) (2022-12-16T10:08:38Z) - Syntax-driven Data Augmentation for Named Entity Recognition [3.0603554929274908]
低リソース設定では、データ拡張戦略が一般的に活用され、パフォーマンスが向上する。
名前付きエンティティ認識を改善するために,簡易なマスク付き言語モデル置換法と選択木変異を用いた拡張法を比較した。
論文 参考訳(メタデータ) (2022-08-15T01:24:55Z) - Improving Diversity with Adversarially Learned Transformations for
Domain Generalization [81.26960899663601]
本稿では、ニューラルネットワークを用いた逆学習変換(ALT)を用いて、可塑性かつハードな画像変換をモデル化する新しいフレームワークを提案する。
我々は、ALTが既存の多様性モジュールと自然に連携して、ソースドメインの大規模変換によって最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-06-15T18:05:24Z) - Rethinking the Augmentation Module in Contrastive Learning: Learning
Hierarchical Augmentation Invariance with Expanded Views [22.47152165975219]
データ拡張モジュールは、データサンプルを2つのビューに変換するために、対照的な学習に使用される。
本稿では, 一般的なコントラスト学習フレームワークにおいて, コントラストとコントラストを考慮し, これら2つの問題を緩和する一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T04:30:46Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。