論文の概要: Meeting the Needs of Low-Resource Languages: The Value of Automatic
Alignments via Pretrained Models
- arxiv url: http://arxiv.org/abs/2302.07912v1
- Date: Wed, 15 Feb 2023 19:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:55:12.329179
- Title: Meeting the Needs of Low-Resource Languages: The Value of Automatic
Alignments via Pretrained Models
- Title(参考訳): 低リソース言語のニーズを満たす:事前学習モデルによる自動アライメントの価値
- Authors: Abteen Ebrahimi, Arya D. McCarthy, Arturo Oncevay, Luis Chiruzzo, John
E. Ortega, Gustavo A. Gim\'enez-Lugo, Rolando Coto-Solano, Katharina Kann
- Abstract要約: 大規模多言語モデルは、モデルの事前学習言語でうまく機能する新しい種類の単語アライメント手法にインスピレーションを与えている。
この作業において、私たちは、 モダンは、目に見えない言語でどのように機能するのか、そして、それらは従来のメソッドよりも優れているのか?
我々は,ブリブリ・スパニッシュ,グアラニ・スパニッシュ,ケチュア・スパニッシュ,シーリボ・コニボ・スパニッシュの金標準アライメントに貢献する。
- 参考スコア(独自算出の注目度): 21.252326808508432
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large multilingual models have inspired a new class of word alignment
methods, which work well for the model's pretraining languages. However, the
languages most in need of automatic alignment are low-resource and, thus, not
typically included in the pretraining data. In this work, we ask: How do modern
aligners perform on unseen languages, and are they better than traditional
methods? We contribute gold-standard alignments for Bribri--Spanish,
Guarani--Spanish, Quechua--Spanish, and Shipibo-Konibo--Spanish. With these, we
evaluate state-of-the-art aligners with and without model adaptation to the
target language. Finally, we also evaluate the resulting alignments
extrinsically through two downstream tasks: named entity recognition and
part-of-speech tagging. We find that although transformer-based methods
generally outperform traditional models, the two classes of approach remain
competitive with each other.
- Abstract(参考訳): 大規模多言語モデルは、モデルの事前学習言語でうまく機能する新しい種類の単語アライメント手法にインスピレーションを与えている。
しかしながら、自動アライメントを必要とする言語は低リソースであるため、通常、事前学習データには含まれない。
現代のライナーは、未知の言語でどのように振る舞うのか、そしてそれらは従来の方法よりも優れているのか?
我々は、ブリブリ語-スペイン語-グアラニ語-スペイン語-ケチュア語-スペイン語-およびルシボ-コニボ語-スペイン語に対する金本位制の調整を行っている。
そこで本研究では,対象言語へのモデル適応と非対応性の評価を行った。
最後に、結果のアライメントを2つの下流タスク(名前付きエンティティ認識とpart-of-speech tagging)を通して評価する。
トランスフォーマーに基づく手法は,従来のモデルよりも一般的に優れているが,2種類のアプローチは相反する。
関連論文リスト
- PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment [68.20851615263953]
大規模な言語モデルは、英語中心の事前訓練にもかかわらず、合理的な多言語能力を示す。
これらのモデルにおける自発的な多言語アライメントは弱く、不満足な言語間移動と知識共有をもたらす。
言語モデル事前学習に先立って多言語アライメントを確立するフレームワークであるPreAlignを提案する。
論文 参考訳(メタデータ) (2024-07-23T06:59:53Z) - A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。