論文の概要: Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k? Mixed Training with Gradient
Optimization in Few-Shot Cross-Lingual Transfer
- arxiv url: http://arxiv.org/abs/2204.13869v1
- Date: Fri, 29 Apr 2022 04:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 13:41:18.565384
- Title: Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k? Mixed Training with Gradient
Optimization in Few-Shot Cross-Lingual Transfer
- Title(参考訳): Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k?
Few-Shot Inter-Lingual Transferにおけるグラディエント最適化を用いた混合学習
- Authors: Haoran Xu, Kenton Murray
- Abstract要約: 本研究では,ソースデータとターゲットデータの両方を学習する1ステップ混合学習手法を提案する。
我々は1つのモデルを使って全てのターゲット言語を同時に処理し、過度に言語固有のモデルを避ける。
提案手法は,全タスクの最先端性能と目標適応性能を高いマージンで向上させる。
- 参考スコア(独自算出の注目度): 2.7213511121305465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current state-of-the-art for few-shot cross-lingual transfer learning
first trains on abundant labeled data in the source language and then
fine-tunes with a few examples on the target language, termed target-adapting.
Though this has been demonstrated to work on a variety of tasks, in this paper
we show some deficiencies of this approach and propose a one-step mixed
training method that trains on both source and target data with
\textit{stochastic gradient surgery}, a novel gradient-level optimization.
Unlike the previous studies that focus on one language at a time when
target-adapting, we use one model to handle all target languages simultaneously
to avoid excessively language-specific models. Moreover, we discuss the
unreality of utilizing large target development sets for model selection in
previous literature. We further show that our method is both development-free
for target languages, and is also able to escape from overfitting issues. We
conduct a large-scale experiment on 4 diverse NLP tasks across up to 48
languages. Our proposed method achieves state-of-the-art performance on all
tasks and outperforms target-adapting by a large margin, especially for
languages that are linguistically distant from the source language, e.g., 7.36%
F1 absolute gain on average for the NER task, up to 17.60% on Punjabi.
- Abstract(参考訳): 少ない言語間転送学習の現在の最先端は、まずソース言語で豊富なラベル付きデータをトレーニングし、次にターゲット言語でいくつかの例を微調整し、ターゲット適応(target-adapting)と呼ぶ。
本稿では,本手法の欠点について述べるとともに,ソースデータとターゲットデータの両方に対して,新しい勾配レベル最適化法である \textit{stochasticgradient surgery} を用いて訓練を行うための1段階混合訓練法を提案する。
ターゲット適応時に1つの言語にフォーカスする以前の研究とは異なり、我々は1つのモデルを使って全てのターゲット言語を同時に処理し、過度に言語固有のモデルを避ける。
さらに,本論文では,大規模ターゲット開発セットを用いたモデル選択の非現実性について述べる。
さらに,本手法は対象言語に対して開発自由であり,過度に適合する問題を回避できることを示す。
最大48言語にまたがる4種類のNLPタスクについて大規模な実験を行った。
提案手法は,NERタスクの平均値が7.36%,Punjabiが17.60%,など,言語的に言語的に言語的に離れた言語に対して,すべてのタスクに対する最先端の性能と目標適応性能を高いマージンで向上させる。
関連論文リスト
- Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training [38.19963761398705]
本稿では,近年のIEコーパスにおける多言語多言語変換可能性(多言語間移動学習)に関する詳細な解析を行う。
まず、単一言語のパフォーマンスと幅広い言語に基づく距離の相関について検討する。
次に,複数の言語が学習・評価プロセスに関与している,より一般的なゼロショット多言語転送設定について検討する。
論文 参考訳(メタデータ) (2024-11-13T17:13:25Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - CrossAligner & Co: Zero-Shot Transfer Methods for Task-Oriented
Cross-lingual Natural Language Understanding [18.14437842819122]
CrossAlignerは、ゼロショット・クロスランガル転送のための様々な効果的な手法の主要な方法である。
本稿では,個々の手法と重み付けされた組み合わせの定量的分析を行い,その一部はSOTA(State-of-the-art)スコアを超えている。
最適手法の詳細な定性的誤り解析により、我々の微調整言語モデルが、予想よりも優れたタスク知識をゼロショット転送できることが示される。
論文 参考訳(メタデータ) (2022-03-18T14:18:12Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - Nearest Neighbour Few-Shot Learning for Cross-lingual Classification [2.578242050187029]
単純な近接数ショット(15サンプル)推論手法による言語間適応による分類作業
提案手法は,少数のラベル付きサンプルのみを対象とする従来の微調整を継続的に改善する。
論文 参考訳(メタデータ) (2021-09-06T03:18:23Z) - Multilingual Code-Switching for Zero-Shot Cross-Lingual Intent
Prediction and Slot Filling [29.17194639368877]
ランダムな翻訳による多言語コードスイッチングを用いたモノリンガルソースデータの拡張手法を提案する。
multiatis++のベンチマークデータセットの実験では、インテントタスクの精度が+4.2%、スロットタスクが+1.8%に向上した。
本研究では,英語およびハイチクレオール語でスロット充填を行う新しいヒトアノテーション付きツイートデータセットを用いた危機情報学への応用について述べる。
論文 参考訳(メタデータ) (2021-03-13T21:05:09Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。