論文の概要: Understanding compositional data augmentation in automatic morphological
inflection
- arxiv url: http://arxiv.org/abs/2305.13658v1
- Date: Tue, 23 May 2023 04:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 19:14:04.772605
- Title: Understanding compositional data augmentation in automatic morphological
inflection
- Title(参考訳): 自動形態素変換における合成データ拡張の理解
- Authors: Farhan Samir and Miikka Silfverberg
- Abstract要約: 本研究は,データ拡張戦略StemCorruptの理論的側面に光を当てる。
我々の分析によると、StemCorruptは基礎となるデータ分布に根本的な変化をもたらす。
モーフォロジカルな交互化のような非連結性を含む言語は、高い予測の不確実性を持つ合成例の恩恵を少なくすることがわかった。
- 参考スコア(独自算出の注目度): 5.239450214810103
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data augmentation techniques are widely used in low-resource automatic
morphological inflection to address the issue of data sparsity. However, the
full implications of these techniques remain poorly understood. In this study,
we aim to shed light on the theoretical aspects of the data augmentation
strategy StemCorrupt, a method that generates synthetic examples by randomly
substituting stem characters in existing gold standard training examples. Our
analysis uncovers that StemCorrupt brings about fundamental changes in the
underlying data distribution, revealing inherent compositional concatenative
structure. To complement our theoretical analysis, we investigate the
data-efficiency of StemCorrupt. Through evaluation across a diverse set of
seven typologically distinct languages, we demonstrate that selecting a subset
of datapoints with both high diversity and high predictive uncertainty
significantly enhances the data-efficiency of StemCorrupt compared to
competitive baselines. Furthermore, we explore the impact of typological
features on the choice of augmentation strategy and find that languages
incorporating non-concatenativity, such as morphonological alternations, derive
less benefit from synthetic examples with high predictive uncertainty. We
attribute this effect to phonotactic violations induced by StemCorrupt,
emphasizing the need for further research to ensure optimal performance across
the entire spectrum of natural language morphology.
- Abstract(参考訳): データ拡張技術は、データ空間の問題に対処するために、低リソースの自動形態変化において広く利用されている。
しかし、これらの技法の完全な意味はいまだに理解されていない。
本研究では,既存の金標準トレーニング例において,無作為に茎文字を置換して合成例を生成するStemCorruptという,データ拡張戦略の理論的側面を明らかにすることを目的とする。
我々の分析によると、StemCorruptは基礎となるデータ分布に根本的な変化をもたらし、固有の構成的結合構造を明らかにしている。
理論的解析を補完するため,StemCorruptのデータ効率について検討する。
異なる7つの言語を多種多様に分けて評価することにより,高い多様性と高い予測不確実性を持つデータポイントのサブセットを選択することで,競争ベースラインと比較してStemCorruptのデータ効率が著しく向上することを示した。
さらに,類型的特徴が拡張戦略の選択に与える影響について検討し,モーフォロジカルな変化などの非連結性を含む言語は,高い予測不確実性を有する合成例の利点を損なうことを見出した。
本研究は,自然言語形態のスペクトル全体にわたって最適な性能を確保するために,さらなる研究が必要であることを強調する。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。
過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。
我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups [0.0]
ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
論文 参考訳(メタデータ) (2023-12-12T22:49:24Z) - Large Language Models are Few-Shot Training Example Generators: A Case Study in Fallacy Recognition [49.38757847011105]
計算誤認識は、さまざまなジャンル、ドメイン、データセットに見られる誤認識のタイプによって、課題に直面します。
我々は、追加の文脈を取り入れ、大規模な言語モデルを活用して合成データを生成することによって、誤認識のための既存のモデルを強化することを目指している。
評価結果は、誤検出タイプ、データセット、ジェネレータ間で一貫した改善を示す。
論文 参考訳(メタデータ) (2023-11-16T04:17:47Z) - Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。
このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。
ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T18:31:50Z) - Assistive Completion of Agrammatic Aphasic Sentences: A Transfer
Learning Approach using Neurolinguistics-based Synthetic Dataset [0.8831954614241233]
下前頭回への損傷は失語症を引き起こすことがある。
患者は理解できるが、完全な文章を形成する能力は欠如している。
論文 参考訳(メタデータ) (2022-11-10T13:24:02Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Bootstrapping Techniques for Polysynthetic Morphological Analysis [9.655349059913888]
ニューラルモルフォロジーアナライザをブートストラップするための言語的インフォームドアプローチを提案する。
有限状態トランスデューサからデータを生成し,エンコーダデコーダモデルを訓練する。
学習データに欠落する言語構造を「ハロシン化」し、Zipf分布から再サンプリングすることで、形態素のより自然な分布をシミュレートすることでモデルを改善する。
論文 参考訳(メタデータ) (2020-05-03T00:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。