論文の概要: Multilingual unsupervised sequence segmentation transfers to extremely
low-resource languages
- arxiv url: http://arxiv.org/abs/2110.08415v1
- Date: Sat, 16 Oct 2021 00:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:46:05.867094
- Title: Multilingual unsupervised sequence segmentation transfers to extremely
low-resource languages
- Title(参考訳): 超低リソース言語への多言語非教師付きシーケンスセグメンテーション転送
- Authors: C.M. Downey, Shannon Drizin, Levon Haroutunian, Shivin Thukral
- Abstract要約: Masked Segmental Language Modelを多言語で事前学習することで、教師なしシーケンスセグメンテーションのパフォーマンスを極端に低リソース言語に変換することができる。
対象言語とタイプ論的に類似しているが系統学的には無関係) な低リソース言語群を学習することにより, この移行を実現することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that unsupervised sequence-segmentation performance can be
transferred to extremely low-resource languages by pre-training a Masked
Segmental Language Model (Downey et al., 2021) multilingually. Further, we show
that this transfer can be achieved by training over a collection of
low-resource languages that are typologically similar (but phylogenetically
unrelated) to the target language. In our experiments, we transfer from a
collection of 10 Indigenous American languages (AmericasNLP, Mager et al.,
2021) to K'iche', a Mayan language. We compare our model to a monolingual
baseline, and show that the multilingual pre-trained approach yields much more
consistent segmentation quality across target dataset sizes, including a
zero-shot performance of 20.6 F1, and exceeds the monolingual performance in
9/10 experimental settings. These results have promising implications for
low-resource NLP pipelines involving human-like linguistic units, such as the
sparse transcription framework proposed by Bird (2020).
- Abstract(参考訳): マスキングセグメント言語モデル(downey et al., 2021)を多言語で事前学習することにより,教師なしシーケンスセグメンテーション性能を極めて低リソース言語に移行できることを示す。
さらに,対象言語と類型的に類似する(しかし系統学的に無関係である)低リソース言語の集合体上でトレーニングすることで,この移行が可能となることを示す。
実験では、アメリカ先住民族の10の言語(AmericasNLP, Mager et al., 2021)からマヤ語K'iche'に移行した。
我々は,本モデルを単言語ベースラインと比較し,マルチリンガル事前学習手法により,ゼロショット性能20.6 F1を含むターゲットデータセットサイズに対して,より一貫性のあるセグメンテーション品質が得られることを示す。
これらの結果は、Bird (2020) が提案したスパース転写フレームワークのような、人間のような言語単位を含む低リソースのNLPパイプラインに有望な意味を持つ。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。