論文の概要: Understanding Compositional Data Augmentation in Typologically Diverse
Morphological Inflection
- arxiv url: http://arxiv.org/abs/2305.13658v2
- Date: Mon, 23 Oct 2023 18:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:56:06.044345
- Title: Understanding Compositional Data Augmentation in Typologically Diverse
Morphological Inflection
- Title(参考訳): 音韻的多変量形態変化における構成データ増大の理解
- Authors: Farhan Samir and Miikka Silfverberg
- Abstract要約: 我々は、著名なデータ強化戦略であるStemCorruptの理論的側面に光を当てた。
我々は,StemCorruptは形態素間の素早い相関を排除し,構成一般化を改善することを示す。
また,タイプ的特徴がデータ選択戦略の選択に与える影響についても検討する。
- 参考スコア(独自算出の注目度): 7.186503504193154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data augmentation techniques are widely used in low-resource automatic
morphological inflection to overcome data sparsity. However, the full
implications of these techniques remain poorly understood. In this study, we
aim to shed light on the theoretical aspects of the prominent data augmentation
strategy StemCorrupt (Silfverberg et al., 2017; Anastasopoulos and Neubig,
2019), a method that generates synthetic examples by randomly substituting stem
characters in gold standard training examples. To begin, we conduct an
information-theoretic analysis, arguing that StemCorrupt improves compositional
generalization by eliminating spurious correlations between morphemes,
specifically between the stem and the affixes. Our theoretical analysis further
leads us to study the sample efficiency with which StemCorrupt reduces these
spurious correlations. Through evaluation across seven typologically distinct
languages, we demonstrate that selecting a subset of datapoints with both high
diversity and high predictive uncertainty significantly enhances the
data-efficiency of StemCorrupt. However, we also explore the impact of
typological features on the choice of the data selection strategy and find that
languages incorporating a high degree of allomorphy and phonological
alternations derive less benefit from synthetic examples with high uncertainty.
We attribute this effect to phonotactic violations induced by StemCorrupt,
emphasizing the need for further research to ensure optimal performance across
the entire spectrum of natural language morphology.
- Abstract(参考訳): データ拡張技術は、データ空間を克服するために、低リソースの自動モーフィックインフレクションに広く利用されている。
しかし、これらの技法の完全な意味はいまだに理解されていない。
本研究では,StemCorrupt (Silfverberg et al., 2017; Anastasopoulos and Neubig, 2019)の理論的側面を明らかにすることを目的とした。
まず,情報理論的な分析を行い,ステムコラプトが,特にステムと接点間のスプリアス相関を排除し,構成的一般化を改善できると主張した。
理論的解析により、stemcorruptがこれらのスプリアス相関を減少させるサンプル効率がさらに研究される。
その結果,StemCorruptのデータ効率は,多種多様であり,予測の不確実性が高いデータポイントのサブセットを選択することで著しく向上することが示された。
しかし,データ選択戦略の選択に類型的特徴が与える影響についても検討し,高いアロモルファスと音韻的変化を取り入れた言語は,高い不確実性を有する合成例の恩恵を受けにくいことを見出した。
本研究は,自然言語形態のスペクトル全体にわたって最適な性能を確保するために,さらなる研究が必要であることを強調する。
関連論文リスト
- Benchmarking Transcriptomics Foundation Models for Perturbation Analysis : one PCA still rules them all [1.507700065820919]
転写学的シークエンシングの最近の進歩は、価値ある洞察を明らかにする新しい機会を提供する。
摂動解析におけるこれらの上昇モデルの有効性をしっかり評価するためのベンチマークは行われていない。
本稿では,生物学的に動機づけた新しい評価フレームワークと摂動解析タスクの階層について述べる。
論文 参考訳(メタデータ) (2024-10-17T18:27:51Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups [0.0]
ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
論文 参考訳(メタデータ) (2023-12-12T22:49:24Z) - Large Language Models are Few-Shot Training Example Generators: A Case Study in Fallacy Recognition [49.38757847011105]
計算誤認識は、さまざまなジャンル、ドメイン、データセットに見られる誤認識のタイプによって、課題に直面します。
我々は、追加の文脈を取り入れ、大規模な言語モデルを活用して合成データを生成することによって、誤認識のための既存のモデルを強化することを目指している。
評価結果は、誤検出タイプ、データセット、ジェネレータ間で一貫した改善を示す。
論文 参考訳(メタデータ) (2023-11-16T04:17:47Z) - Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。
このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。
ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T18:31:50Z) - Assistive Completion of Agrammatic Aphasic Sentences: A Transfer
Learning Approach using Neurolinguistics-based Synthetic Dataset [0.8831954614241233]
下前頭回への損傷は失語症を引き起こすことがある。
患者は理解できるが、完全な文章を形成する能力は欠如している。
論文 参考訳(メタデータ) (2022-11-10T13:24:02Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Bootstrapping Techniques for Polysynthetic Morphological Analysis [9.655349059913888]
ニューラルモルフォロジーアナライザをブートストラップするための言語的インフォームドアプローチを提案する。
有限状態トランスデューサからデータを生成し,エンコーダデコーダモデルを訓練する。
学習データに欠落する言語構造を「ハロシン化」し、Zipf分布から再サンプリングすることで、形態素のより自然な分布をシミュレートすることでモデルを改善する。
論文 参考訳(メタデータ) (2020-05-03T00:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。