論文の概要: Meta-Pretraining for Zero-Shot Cross-Lingual Named Entity Recognition in Low-Resource Philippine Languages
- arxiv url: http://arxiv.org/abs/2509.02160v1
- Date: Tue, 02 Sep 2025 10:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.991108
- Title: Meta-Pretraining for Zero-Shot Cross-Lingual Named Entity Recognition in Low-Resource Philippine Languages
- Title(参考訳): 低リソースフィリピン語におけるゼロショット言語間異名認識のためのメタ前処理
- Authors: David Demitri Africa, Suchir Salhan, Yuval Weiss, Paula Buttery, Richard Diehl Martinez,
- Abstract要約: 我々は、小デコーダLMを事前訓練して、迅速に適応させ、事前訓練中に目に見えない言語にゼロショットを転送できるかどうかを問う。
4つのモデルサイズ(11M-570M)のMAMLは、頭部のみのチューニングでゼロショットマイクロF1を2-6pp、フルチューニングで1-3ppを持ち上げ、収束時間を最大8%削減する。
- 参考スコア(独自算出の注目度): 2.9818807546566615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named-entity recognition (NER) in low-resource languages is usually tackled by finetuning very large multilingual LMs, an option that is often infeasible in memory- or latency-constrained settings. We ask whether small decoder LMs can be pretrained so that they adapt quickly and transfer zero-shot to languages unseen during pretraining. To this end we replace part of the autoregressive objective with first-order model-agnostic meta-learning (MAML). Tagalog and Cebuano are typologically similar yet structurally different in their actor/non-actor voice systems, and hence serve as a challenging test-bed. Across four model sizes (11 M - 570 M) MAML lifts zero-shot micro-F1 by 2-6 pp under head-only tuning and 1-3 pp after full tuning, while cutting convergence time by up to 8%. Gains are largest for single-token person entities that co-occur with Tagalog case particles si/ni, highlighting the importance of surface anchors.
- Abstract(参考訳): 低リソース言語における名前付き一致認識(NER)は、通常、非常に大きな多言語LMを微調整することで取り組まれる。
我々は、小デコーダLMを事前訓練して、迅速に適応させ、事前訓練中に目に見えない言語にゼロショットを転送できるかどうかを問う。
この目的のために、自己回帰目標の一部を1次モデル非依存メタラーニング(MAML)に置き換える。
タガログとセブアーノはタイポロジー的には似ているが、アクター/ノンアクターの音声システムでは構造的に異なるため、難しいテストベッドとして機能する。
4つのモデルサイズ(11M-570M)のMAMLは、頭部のみのチューニングでゼロショットマイクロF1を2-6pp、フルチューニングで1-3ppを持ち上げ、収束時間を最大8%削減する。
ゲインはタガログの粒子 si/ni と共起する単一トークンの人体にとって最大であり、表面アンカーの重要性を強調している。
関連論文リスト
- Learning Dynamics of Meta-Learning in Small Model Pretraining [2.6684726101845]
我々は,一階のMAMLとサブセットメイクLM事前学習を統合した。
LLama-style decoder-only model(11M-570M params) を4つの生成する。
多くの設定や実世界のアプリケーションで基本的なNLPタスクで評価する。
論文 参考訳(メタデータ) (2025-08-04T08:34:30Z) - Registering Source Tokens to Target Language Spaces in Multilingual Neural Machine Translation [26.737542701290153]
我々は,小規模なMNMT特化モデルが大規模言語モデル(LLM)と競合することを可能にする新しい手法である登録を導入する。
大規模ベンチマークであるEC-40の実験から,本手法がMNMTの最先端技術に進展することを示す。
MNMTのさらなる研究と開発を促進するために、当社のモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2025-01-06T12:42:54Z) - On the Shortcut Learning in Multilingual Neural Machine Translation [95.30470845501141]
本研究は、多言語ニューラルマシン翻訳(MNMT)において、一般的に語られるオフターゲット問題を再考する。
ターゲット外の問題は、(非中心的、中心的でない)言語マッピングのショートカットが過度に適合していることに起因しています。
学習力学の解析によると、ショートカット学習はモデルトレーニングの後期に一般的に発生する。
論文 参考訳(メタデータ) (2024-11-15T21:09:36Z) - Empirical study of pretrained multilingual language models for zero-shot cross-lingual knowledge transfer in generation [22.962667039293976]
言語間の知識伝達により、多言語事前学習言語モデル(mPLM)が他の言語で予測できる。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBART や NLLB-200 などの代替 mPLM を,アダプタを用いた完全微調整およびパラメータ効率の高い微調整により検証する。
論文 参考訳(メタデータ) (2023-10-15T18:58:53Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。