論文の概要: Style Transfer as Data Augmentation: A Case Study on Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2210.07916v1
- Date: Fri, 14 Oct 2022 16:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:45:00.607534
- Title: Style Transfer as Data Augmentation: A Case Study on Named Entity
Recognition
- Title(参考訳): データ拡張としてのスタイル伝達:名前付きエンティティ認識の事例研究
- Authors: Shuguang Chen, Leonardo Neves, Thamar Solorio
- Abstract要約: 本稿では,テキストを高リソース領域から低リソース領域へ変換する手法を提案する。
我々は、データ選択のための重要な要素のセットとともに制約付き復号アルゴリズムを設計し、有効かつ一貫性のあるデータの生成を保証する。
我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
- 参考スコア(独自算出の注目度): 17.892385961143173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we take the named entity recognition task in the English
language as a case study and explore style transfer as a data augmentation
method to increase the size and diversity of training data in low-resource
scenarios. We propose a new method to effectively transform the text from a
high-resource domain to a low-resource domain by changing its style-related
attributes to generate synthetic data for training. Moreover, we design a
constrained decoding algorithm along with a set of key ingredients for data
selection to guarantee the generation of valid and coherent data. Experiments
and analysis on five different domain pairs under different data regimes
demonstrate that our approach can significantly improve results compared to
current state-of-the-art data augmentation methods. Our approach is a practical
solution to data scarcity, and we expect it to be applicable to other NLP
tasks.
- Abstract(参考訳): 本研究では,英語における名前付きエンティティ認識タスクを事例研究として,低リソースシナリオにおけるトレーニングデータのサイズと多様性を向上させるためのデータ拡張手法として,スタイル転送を検討する。
本稿では,スタイル関連属性を変更して学習用合成データを生成することにより,高リソースドメインから低リソースドメインへテキストを効果的に変換する新しい手法を提案する。
さらに,制約付き復号アルゴリズムをデータ選択のためのキー成分のセットとともに設計し,有効かつコヒーレントなデータの生成を保証する。
異なるデータ構造下での5つの異なるドメインペアの実験と解析は、我々のアプローチが現在の最先端データ拡張手法と比較して、結果を大幅に改善できることを示した。
我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
関連論文リスト
- Few-Shot Data-to-Text Generation via Unified Representation and
Multi-Source Learning [114.54944761345594]
本稿では,既存の手法の限界に対処する構造化データ・テキスト生成手法を提案する。
提案手法は,マルチタスクトレーニング,ゼロショット,少数ショットシナリオの性能向上を目的としている。
論文 参考訳(メタデータ) (2023-08-10T03:09:12Z) - Augmentation Invariant Manifold Learning [0.5827521884806071]
本稿では,拡張不変多様体学習と呼ばれる新しい表現学習手法を提案する。
既存の自己教師付き手法と比較して、新しい手法は多様体の幾何学的構造と拡張データの不変性を同時に活用する。
提案手法におけるデータ拡張の役割を理論的研究により明らかにし, 下流解析において, 拡張データから得られたデータ表現が$k$-nearestの隣人を改善できる理由と方法を明らかにした。
論文 参考訳(メタデータ) (2022-11-01T13:42:44Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Implicit Data Augmentation Using Feature Interpolation for Diversified
Low-Shot Image Generation [11.4559888429977]
生成モデルのトレーニングは、低データ設定で容易に発散することができる。
そこで本研究では,安定したトレーニングと多様なサンプルの合成を容易にする,新しい暗黙的データ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-12-04T23:55:46Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Flexible deep transfer learning by separate feature embeddings and
manifold alignment [0.0]
オブジェクト認識は、業界と防衛において重要な存在である。
残念ながら、既存のラベル付きデータセットでトレーニングされたアルゴリズムは、データ分布が一致しないため、直接新しいデータに一般化しない。
本稿では,各領域の特徴抽出を個別に学習することで,この制限を克服する新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-22T19:24:44Z) - Propositionalization and Embeddings: Two Sides of the Same Coin [0.0]
本稿では,リレーショナル学習におけるデータ処理技術について概説する。
それは命題化とデータ変換のアプローチの埋め込みに焦点を当てている。
統一手法の2つの効率的な実装を提案する。
論文 参考訳(メタデータ) (2020-06-08T08:33:21Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。