論文の概要: DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks
- arxiv url: http://arxiv.org/abs/2011.01549v1
- Date: Tue, 3 Nov 2020 07:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:51:26.706412
- Title: DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks
- Title(参考訳): DAGA:低リソースタグタスクの生成アプローチによるデータ拡張
- Authors: Bosheng Ding, Linlin Liu, Lidong Bing, Canasai Kruengkrai, Thien Hai
Nguyen, Shafiq Joty, Luo Si, Chunyan Miao
- Abstract要約: 線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
- 参考スコア(独自算出の注目度): 88.62288327934499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation techniques have been widely used to improve machine
learning performance as they enhance the generalization capability of models.
In this work, to generate high quality synthetic data for low-resource tagging
tasks, we propose a novel augmentation method with language models trained on
the linearized labeled sentences. Our method is applicable to both supervised
and semi-supervised settings. For the supervised settings, we conduct extensive
experiments on named entity recognition (NER), part of speech (POS) tagging and
end-to-end target based sentiment analysis (E2E-TBSA) tasks. For the
semi-supervised settings, we evaluate our method on the NER task under the
conditions of given unlabeled data only and unlabeled data plus a knowledge
base. The results show that our method can consistently outperform the
baselines, particularly when the given gold training data are less.
- Abstract(参考訳): データ拡張技術は、モデルの一般化能力を高めるため、機械学習の性能向上に広く利用されている。
本研究では,低リソースタグ処理のための高品質な合成データを生成するために,線形ラベル付き文を用いた言語モデルを用いた新しい拡張手法を提案する。
本手法は,教師付き設定と半教師付き設定の両方に適用できる。
教師付き設定では、名前付きエンティティ認識(NER)、音声認識(POS)タグ付け、エンドツーエンドのターゲットベース感情分析(E2E-TBSA)タスクについて広範な実験を行う。
半教師なしの設定では,与えられたラベルなしデータのみとラベルなしデータと知識ベースを条件としてnerタスクの手法を評価する。
以上の結果から,金のトレーニングデータが少ない場合,本手法はベースラインを一貫して上回ることを示す。
関連論文リスト
- Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Combining inherent knowledge of vision-language models with unsupervised domain adaptation through strong-weak guidance [44.1830188215271]
教師なしドメイン適応(UDA)は、ラベル付きソースデータセットを活用することで、データのラベル付けの面倒な作業を克服しようとする。
現在の視覚言語モデルは、顕著なゼロショット予測能力を示す。
我々は、ゼロショット予測を用いて、ソースとターゲットデータセットの整列を支援する、強弱誘導学習スキームを導入する。
論文 参考訳(メタデータ) (2023-12-07T06:16:39Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Data Weighted Training Strategies for Grammatical Error Correction [8.370770440898454]
文法的誤り訂正(GEC)のトレーニングスケジュールにデルタ-log-perplexityを組み込む方法を示す。
得られたデータに基づいて訓練されたモデルは、一般的なGECテストセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-08-07T03:30:14Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。