論文の概要: An Empirical Study of Contextual Data Augmentation for Japanese Zero
Anaphora Resolution
- arxiv url: http://arxiv.org/abs/2011.00948v2
- Date: Wed, 4 Nov 2020 16:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:57:13.205361
- Title: An Empirical Study of Contextual Data Augmentation for Japanese Zero
Anaphora Resolution
- Title(参考訳): 日本語ゼロアナフォラ分解能のための文脈データ拡張に関する実証的研究
- Authors: Ryuto Konno, Yuichiroh Matsubayashi, Shun Kiyono, Hiroki Ouchi, Ryo
Takahashi, Kentaro Inui
- Abstract要約: 本研究では,この問題をデータ拡張によって効果的に緩和する方法について検討する。
我々は、事前訓練された言語モデルを用いてラベル付きトレーニングインスタンスを生成する、最先端のデータ拡張手法を採用する。
提案手法は,従来のデータ拡張と比較して,強化トレーニングデータの品質を向上させることができる。
- 参考スコア(独自算出の注目度): 40.77086563127755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One critical issue of zero anaphora resolution (ZAR) is the scarcity of
labeled data. This study explores how effectively this problem can be
alleviated by data augmentation. We adopt a state-of-the-art data augmentation
method, called the contextual data augmentation (CDA), that generates labeled
training instances using a pretrained language model. The CDA has been reported
to work well for several other natural language processing tasks, including
text classification and machine translation. This study addresses two
underexplored issues on CDA, that is, how to reduce the computational cost of
data augmentation and how to ensure the quality of the generated data. We also
propose two methods to adapt CDA to ZAR: [MASK]-based augmentation and
linguistically-controlled masking. Consequently, the experimental results on
Japanese ZAR show that our methods contribute to both the accuracy gain and the
computation cost reduction. Our closer analysis reveals that the proposed
method can improve the quality of the augmented training data when compared to
the conventional CDA.
- Abstract(参考訳): zero anaphora resolution (zar) の重要な問題はラベル付きデータの不足である。
本研究では,データ拡張によってこの問題がいかに効果的に解決できるかを検討する。
我々は、事前訓練された言語モデルを用いてラベル付きトレーニングインスタンスを生成する、文脈データ拡張(CDA)と呼ばれる最先端データ拡張手法を採用する。
CDAは、テキスト分類や機械翻訳など、いくつかの自然言語処理タスクでうまく機能していると報告されている。
本研究は,データ拡張の計算コストを削減する方法と,生成されたデータの品質を保証する方法という,cdaの未熟な2つの問題に対処する。
また, CDA を ZAR に適応させる手法として, [MASK] による拡張と言語制御によるマスキングを提案する。
その結果,本手法は精度向上と計算コスト削減の両方に寄与することがわかった。
提案手法は,従来のCDAと比較して,強化トレーニングデータの品質を向上させることができることを示す。
関連論文リスト
- Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - CropCat: Data Augmentation for Smoothing the Feature Distribution of EEG
Signals [3.5665681694253903]
新たなデータ拡張手法であるCropCatを提案する。
CropCatはCropCat-spatialとCropCat-temporalの2つのバージョンで構成されている。
CropCatが生成したデータは、モデルのトレーニング時に脳波信号の特徴分布を円滑にすることを示す。
論文 参考訳(メタデータ) (2022-12-13T07:40:23Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Data Augmentation for Dementia Detection in Spoken Language [1.7324358447544175]
最近のディープラーニング技術はより高速な診断を提供し、有望な結果を示している。
それらは大量のラベル付きデータを必要としており、認知症検出のタスクでは簡単には利用できない。
スパースデータ問題に対する効果的な解決策の1つは、データ拡張であるが、正確なメソッドを慎重に選択する必要がある。
論文 参考訳(メタデータ) (2022-06-26T13:40:25Z) - Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation [32.885722714728765]
CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
論文 参考訳(メタデータ) (2022-05-25T10:44:36Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。