論文の概要: Is linguistically-motivated data augmentation worth it?
- arxiv url: http://arxiv.org/abs/2506.03593v1
- Date: Wed, 04 Jun 2025 05:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.173572
- Title: Is linguistically-motivated data augmentation worth it?
- Title(参考訳): 言語的に動機づけられたデータ拡張の価値はあるか?
- Authors: Ray Groshan, Michael Ginn, Alexis Palmer,
- Abstract要約: データ拡張には、利用可能なトレーニングデータの強化に使用される合成データ例を生成することが含まれる。
これまでの研究では、言語的に内在的かつ言語的に動機づけられたデータ拡張戦略の体系的、実証的な比較は行われていない。
低リソース言語に対する2つの重要なシーケンス・ツー・シーケンス・タスクにおいて,多くの異なる戦略とその組み合わせの有効性を評価する。
- 参考スコア(独自算出の注目度): 1.715959023690448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation, a widely-employed technique for addressing data scarcity, involves generating synthetic data examples which are then used to augment available training data. Researchers have seen surprising success from simple methods, such as random perturbations from natural examples, where models seem to benefit even from data with nonsense words, or data that doesn't conform to the rules of the language. A second line of research produces synthetic data that does in fact follow all linguistic constraints; these methods require some linguistic expertise and are generally more challenging to implement. No previous work has done a systematic, empirical comparison of both linguistically-naive and linguistically-motivated data augmentation strategies, leaving uncertainty about whether the additional time and effort of linguistically-motivated data augmentation work in fact yields better downstream performance. In this work, we conduct a careful and comprehensive comparison of augmentation strategies (both linguistically-naive and linguistically-motivated) for two low-resource languages with different morphological properties, Uspanteko and Arapaho. We evaluate the effectiveness of many different strategies and their combinations across two important sequence-to-sequence tasks for low-resource languages: machine translation and interlinear glossing. We find that linguistically-motivated strategies can have benefits over naive approaches, but only when the new examples they produce are not significantly unlike the training data distribution.
- Abstract(参考訳): データ拡張(Data Augmentation)は、データ不足に対処する広く採用されているテクニックで、利用可能なトレーニングデータの強化に使用される合成データ例を生成する。
例えば自然の例によるランダムな摂動では、モデルはナンセンスな単語を持つデータや、言語の規則に従わないデータからでも恩恵を受けるように思われる。
第二の行の研究は、実際にはすべての言語的制約に従う合成データを生成する; これらの手法はいくつかの言語学的専門知識を必要とし、一般的には実装が困難である。
従来の研究では、言語的にナイーブなデータ拡張戦略と言語的にモチベーションされたデータ拡張戦略の両方を体系的に、実証的に比較することはなく、言語的にモチベーションされたデータ拡張作業の更なる時間と労力が、実際に下流のパフォーマンスを向上させるかどうかという不確実性を残した。
本研究では,ユスパンテコとアラパホの2つの異なる形態的特性を持つ低リソース言語に対する拡張戦略(言語的ナイーブと言語的モチベーションの両方)について,慎重かつ包括的な比較を行った。
低リソース言語のための2つの重要なシーケンス・ツー・シーケンス・タスク、すなわち機械翻訳とインターリニア・グロスリングにおける多くの異なる戦略とその組み合わせの有効性を評価する。
言語的に動機づけられた戦略は、ナイーブなアプローチよりもメリットがあるが、それらが生み出す新しい例がトレーニングデータ分布と大きく異なる場合に限られる。
関連論文リスト
- Dissecting vocabulary biases datasets through statistical testing and
automated data augmentation for artifact mitigation in Natural Language
Inference [3.154631846975021]
我々は、データセットのアーティファクトを調査し、これらの問題に対処するための戦略を開発することに重点を置いている。
文字レベルから単語レベルにまたがる複数の自動データ拡張戦略を提案する。
実験により,提案手法はモデル精度を効果的に向上し,バイアスを最大0.66%,バイアスを1.14%低減することを示した。
論文 参考訳(メタデータ) (2023-12-14T08:46:26Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。
我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。
また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。