論文の概要: Data Augmentation and Hyperparameter Tuning for Low-Resource MFA
- arxiv url: http://arxiv.org/abs/2504.07024v1
- Date: Wed, 09 Apr 2025 16:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:41.836822
- Title: Data Augmentation and Hyperparameter Tuning for Low-Resource MFA
- Title(参考訳): 低リソースMFAのためのデータ拡張とハイパーパラメータチューニング
- Authors: Alessio Tosolini, Claire Bowern,
- Abstract要約: 我々はコーパスサイズを増やすためにデータ拡張手法を用いる。
テキストの増補とは異なり、音声の増補は性能を大幅に向上させるものではない。
少量から中程度のトレーニングデータを持つ言語では、これは高レベルの言語からモデルを適用するための有効な代替手段である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A continued issue for those working with computational tools and endangered and under-resourced languages is the lower accuracy of results for languages with smaller amounts of data. We attempt to ameliorate this issue by using data augmentation methods to increase corpus size, comparing augmentation to hyperparameter tuning for multilingual forced alignment. Unlike text augmentation methods, audio augmentation does not lead to substantially increased performance. Hyperparameter tuning, on the other hand, results in substantial improvement without (for this amount of data) infeasible additional training time. For languages with small to medium amounts of training data, this is a workable alternative to adapting models from high-resource languages.
- Abstract(参考訳): 計算ツールや絶滅危惧言語を扱う人々にとっての継続的な問題は、少ないデータ量を持つ言語における結果の精度の低下である。
コーパスサイズを向上させるためにデータ拡張手法を用いてこの問題を改善することを目的として,多言語強制アライメントのためのハイパーパラメータチューニングとの比較を行った。
テキスト増補法とは異なり、音声増補は性能を大幅に向上させるものではない。
一方、ハイパーパラメータチューニングは、(この量のデータに対して)追加のトレーニング時間なしでは、大幅に改善する。
少量から中程度のトレーニングデータを持つ言語では、これは高レベルの言語からモデルを適用するための有効な代替手段である。
関連論文リスト
- Train More Parameters But Mind Their Placement: Insights into Language Adaptation with PEFT [0.8702432681310401]
我々は、構造化されていないテキストコーパスを用いて、LLMの生成性能を向上させることを目的としている。
トレーニング可能なパラメータの数が増加すると、言語適応性が向上し、堅牢になる。
0ショットの要約では改善は一貫しているが、いくつかの適応されたモデルは、より長いコンテキストの長さで苦労する。
論文 参考訳(メタデータ) (2024-12-17T08:44:00Z) - Training Bilingual LMs with Data Constraints in the Targeted Language [17.623676545426477]
本研究では,事前学習データ不足を伴う対象言語における事前学習モデルの性能向上について検討する。
本研究では,データ豊富な補助言語におけるトレーニングとデータ間のパフォーマンスギャップを,対象言語のトレーニングと比較して定量化する。
論文 参考訳(メタデータ) (2024-11-20T02:27:40Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Demystify Optimization Challenges in Multilingual Transformers [21.245418118851884]
ロスランドスケープとパラメータの可塑性の観点から最適化課題を考察する。
不均衡なトレーニングデータは、高いリソース言語と低いリソース言語の間でタスクの干渉を引き起こす。
Curvature Aware Task Scaling (CATS) を提案し、特にリソースの少ない場合の最適化と一般化の両方を改善します。
論文 参考訳(メタデータ) (2021-04-15T17:51:03Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。