論文の概要: MixText: Linguistically-Informed Interpolation of Hidden Space for
Semi-Supervised Text Classification
- arxiv url: http://arxiv.org/abs/2004.12239v1
- Date: Sat, 25 Apr 2020 21:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 21:16:19.870174
- Title: MixText: Linguistically-Informed Interpolation of Hidden Space for
Semi-Supervised Text Classification
- Title(参考訳): MixText:半教師付きテキスト分類のための隠れ空間の言語的インフォームド補間
- Authors: Jiaao Chen, Zichao Yang, Diyi Yang
- Abstract要約: MixTextはテキスト分類のための半教師付き学習手法である。
TMixは、隠れた空間でテキストを補間することで、大量の拡張トレーニングサンプルを生成する。
我々は、ラベルなしデータの低エントロピーラベルを推測するために、最近のデータ拡張の進歩を活用している。
- 参考スコア(独自算出の注目度): 68.15015032551214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents MixText, a semi-supervised learning method for text
classification, which uses our newly designed data augmentation method called
TMix. TMix creates a large amount of augmented training samples by
interpolating text in hidden space. Moreover, we leverage recent advances in
data augmentation to guess low-entropy labels for unlabeled data, hence making
them as easy to use as labeled data.By mixing labeled, unlabeled and augmented
data, MixText significantly outperformed current pre-trained and fined-tuned
models and other state-of-the-art semi-supervised learning methods on several
text classification benchmarks. The improvement is especially prominent when
supervision is extremely limited. We have publicly released our code at
https://github.com/GT-SALT/MixText.
- Abstract(参考訳): 本稿では,テキスト分類のための半教師付き学習手法であるMixTextについて述べる。
TMixは、隠れた空間でテキストを補間することで、大量の拡張トレーニングサンプルを生成する。
さらに,ラベルなしデータの低エントロピーラベルを推定するデータ拡張の最近の進歩を活かし,ラベル付きデータやラベルなしデータ,拡張データ,mixtextが現在の事前学習モデルや微調整モデル,その他最先端の半教師付き学習手法を複数のテキスト分類ベンチマークで比較することで,ラベル付きデータとラベル付きデータの併用が容易になった。
特に監督が極めて限られている場合、改善は顕著である。
コードについてはhttps://github.com/GT-SALT/MixText.comで公開しています。
関連論文リスト
- Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - SelfMix: Robust Learning Against Textual Label Noise with Self-Mixup
Training [15.877178854064708]
SelfMixは、テキスト分類タスクのラベルノイズを処理するためのシンプルで効果的な方法である。
本手法は,1つのモデル上でのドロップアウト機構を利用して,自己学習における確認バイアスを低減する。
論文 参考訳(メタデータ) (2022-10-10T09:46:40Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Swapping Semantic Contents for Mixing Images [44.0283695495163]
データ拡張の混合は通常、クラス間のサンプルを無差別に混合するため、ラベル付きサンプルを新たに生成しない。
我々は、画像背景にセマンティックスタイルのコードを埋め込むジェネレータを学ぶことができるSciMixフレームワークを紹介した。
我々は,SciMixが非セマンティックな両親から多くの特徴を継承する新規な混合サンプルを産み出すことを示した。
論文 参考訳(メタデータ) (2022-05-20T13:07:27Z) - GUDN A novel guide network for extreme multi-label text classification [12.975260278131078]
本稿では,学習前のモデルを微調整し,後で分類を指示する新しいガイドネットワーク(GUDN)を構築する。
また、テキストとラベル間の潜伏空間を効果的に探索するために、生のラベルセマンティクスを使用し、予測精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2022-01-10T07:33:36Z) - GuidedMix-Net: Learning to Improve Pseudo Masks Using Labeled Images as
Reference [153.354332374204]
半教師付きセマンティックセマンティックセグメンテーションのための新しい手法である GuidedMix-Net を提案する。
まず、ラベル付きデータとラベルなしデータの間に特徴アライメントの目的を導入し、類似した画像対をキャプチャする。
MITransは、ラベルなしデータのさらなるプログレッシブな精細化のための強力な知識モジュールであることが示されている。
ラベル付きデータに対する教師付き学習とともに、ラベル付きデータの予測が生成した擬似マスクとともに学習される。
論文 参考訳(メタデータ) (2021-06-29T02:48:45Z) - SSMix: Saliency-Based Span Mixup for Text Classification [2.4493299476776778]
隠れベクトルではなく入力テキストで操作を行う新しい混合手法であるSSMixを提案する。
SSMixは、スパンベースのミキシングによって2つの原文の局所性を保ちながら文を合成する。
我々は,本手法がテキスト分類ベンチマークにおいて,隠れレベル混合手法より優れていることを実証的に検証した。
論文 参考訳(メタデータ) (2021-06-15T11:40:23Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。
複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-02-18T06:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。