論文の概要: DialUp! Modeling the Language Continuum by Adapting Models to Dialects and Dialects to Models
- arxiv url: http://arxiv.org/abs/2501.16581v2
- Date: Tue, 25 Feb 2025 01:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:40:27.008806
- Title: DialUp! Modeling the Language Continuum by Adapting Models to Dialects and Dialects to Models
- Title(参考訳): ダイアルアップ! モデルにディレクトとディレクトを適応させることで言語連続体をモデル化する
- Authors: Niyati Bafna, Emily Chang, Nathaniel R. Robinson, David R. Mortensen, Kenton Murray, David Yarowsky, Hale Sirin,
- Abstract要約: 世界の言語や方言のほとんどは低リソースであり、機械翻訳(MT)モデルをサポートしていない。
本稿では,事前学習したモデルを方言データに適用するための訓練時間技術であるDialUpについて述べる。
4つの言語族に属するいくつかの方言では高い成績を示し,他の2つの言語族では控えめな成績を示した。
- 参考スコア(独自算出の注目度): 11.066884521130056
- License:
- Abstract: Most of the world's languages and dialects are low-resource, and lack support in mainstream machine translation (MT) models. However, many of them have a closely-related high-resource language (HRL) neighbor, and differ in linguistically regular ways from it. This underscores the importance of model robustness to dialectal variation and cross-lingual generalization to the HRL dialect continuum. We present DialUp, consisting of a training-time technique for adapting a pretrained model to dialectal data (M->D), and an inference-time intervention adapting dialectal data to the model expertise (D->M). M->D induces model robustness to potentially unseen and unknown dialects by exposure to synthetic data exemplifying linguistic mechanisms of dialectal variation, whereas D->M treats dialectal divergence for known target dialects. These methods show considerable performance gains for several dialects from four language families, and modest gains for two other language families. We also conduct feature and error analyses, which show that language varieties with low baseline MT performance are more likely to benefit from these approaches.
- Abstract(参考訳): 世界の言語や方言のほとんどは低リソースであり、メインストリームの機械翻訳(MT)モデルをサポートしていない。
しかし、それらの多くは、近縁な高リソース言語(HRL)の隣人であり、言語学的に通常の方法で異なっている。
このことは、方言変化に対するモデルロバスト性の重要性と、HRL方言連続体に対する言語間一般化の重要性を浮き彫りにする。
本稿では、事前訓練されたモデルを方言データ(M->D)に適応させる訓練時間技術と、方言データをモデル専門知識(D->M)に適応させる推論時間介入(D->D)とからなるDialUpを提案する。
M->Dは、方言変化の言語メカニズムを実証する合成データに曝露することで、潜在的に見つからない未知の方言に対するモデルロバスト性を誘導する一方、D->Mは既知のターゲット方言に対する方言のばらつきを治療する。
これらの手法は、4つの言語族に属するいくつかの方言でかなりの性能向上を示し、他の2つの言語族では控えめな増加を示している。
また,機能解析や誤り解析を行い,ベースラインMT性能の低い言語がこれらの手法の恩恵を受ける可能性が示唆された。
関連論文リスト
- Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Parameter and Data Efficient Continual Pre-training for Robustness to
Dialectal Variance in Arabic [9.004920233490642]
多言語BERT(mBERT)がアラビア語単言語データに漸進的に事前訓練されることは、トレーニング時間が少なく、我々のカスタム単言語単言語モデルと比較すると、同等の精度が得られることを示す。
次に,(1)少数の方言データを用いて連続的な微調整を行い,(2)アラビア語から英語への平行なデータと翻訳言語モデリング損失関数を探索する。
論文 参考訳(メタデータ) (2022-11-08T02:51:57Z) - Causal Analysis of Syntactic Agreement Neurons in Multilingual Language
Models [28.036233760742125]
我々は多言語言語モデル(XGLMと多言語BERT)を様々な言語で因果的に探索する。
自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。
論文 参考訳(メタデータ) (2022-10-25T20:43:36Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。