論文の概要: STA: Self-controlled Text Augmentation for Improving Text
Classifications
- arxiv url: http://arxiv.org/abs/2302.12784v1
- Date: Fri, 24 Feb 2023 17:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 12:43:08.056607
- Title: STA: Self-controlled Text Augmentation for Improving Text
Classifications
- Title(参考訳): STA: テキスト分類改善のための自己制御型テキスト拡張
- Authors: Congcong Wang and Gonzalo Fiz Pontiveros and Steven Derby and Tri
Kurniawan Wijaya
- Abstract要約: 自然言語処理(NLP)の分野では,テキスト拡張技術が数多く出現している。
STA(Self-Controlled Text Augmentation)のための最先端手法を提案する。
提案手法は,生成したサンプルが元のテキストのセマンティックな内容を保持することを保証するための自己チェック手順を導入することで,生成過程を厳しく制御する。
- 参考スコア(独自算出の注目度): 2.9669250132689164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements in Machine Learning, many tasks still involve
working in low-data regimes which can make solving natural language problems
difficult. Recently, a number of text augmentation techniques have emerged in
the field of Natural Language Processing (NLP) which can enrich the training
data with new examples, though they are not without their caveats. For
instance, simple rule-based heuristic methods are effective, but lack variation
in semantic content and syntactic structure with respect to the original text.
On the other hand, more complex deep learning approaches can cause extreme
shifts in the intrinsic meaning of the text and introduce unwanted noise into
the training data. To more reliably control the quality of the augmented
examples, we introduce a state-of-the-art approach for Self-Controlled Text
Augmentation (STA). Our approach tightly controls the generation process by
introducing a self-checking procedure to ensure that generated examples retain
the semantic content of the original text. Experimental results on multiple
benchmarking datasets demonstrate that STA substantially outperforms existing
state-of-the-art techniques, whilst qualitative analysis reveals that the
generated examples are both lexically diverse and semantically reliable.
- Abstract(参考訳): 最近の機械学習の進歩にもかかわらず、多くのタスクは、自然言語の問題を解くのを難しくする低データ体制で作業する。
近年,NLP(Natural Language Processing)の分野では,新たな例でトレーニングデータを豊かにすることができるテキスト拡張技術が数多く出現している。
例えば、単純なルールベースのヒューリスティックな手法は有効であるが、意味的内容のばらつきや元のテキストに対する構文構造が欠如している。
一方で、より複雑なディープラーニングアプローチは、テキストの本質的な意味を極端にシフトさせ、トレーニングデータに不要なノイズをもたらす可能性がある。
拡張例の品質をより確実に制御するために,自己制御テキスト拡張(sta)のための最先端手法を提案する。
本手法は,生成例が原文の意味的内容を保持することを保証する自己検査手順を導入することで,生成過程を厳格に制御する。
複数のベンチマークデータセットでの実験的結果は、staが既存の最先端技術を大きく上回っていることを示し、質的分析により生成された例が語彙的に多様で意味的に信頼性が高いことが示されている。
関連論文リスト
- Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - KEST: Kernel Distance Based Efficient Self-Training for Improving
Controllable Text Generation [24.47531522553703]
我々は,これらの問題に対処するための,新規かつ効率的な自己学習フレームワークであるKESTを提案する。
KESTは、標準的なクロスエントロピーではなくカーネルベースの損失を利用して、共有非自己回帰生成器によって生成されたソフトな擬似テキストから学習する。
3つの制御可能な生成タスクの実験により、KESTは、複数の強いベースラインに対して、同等のテキスト流速と生成の多様性を維持しながら、制御精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-06-17T19:40:57Z) - FAST: Improving Controllability for Text Generation with Feedback Aware
Self-Training [25.75982440355576]
制御可能なテキスト生成システムは、しばしば制御コードを利用して、スタイルや長さといった出力の様々な特性を指示する。
NLPの因果推論に関する最近の研究に触発された本論文は、これらの制御符号に基づく条件付きテキスト生成アルゴリズムにおいて、これまで見過ごされていた欠陥を明らかにする。
トレーニングセットにおけるこれらの相関を減少させるための2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-06T19:00:51Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。