論文の概要: Don't Use English Dev: On the Zero-Shot Cross-Lingual Evaluation of
Contextual Embeddings
- arxiv url: http://arxiv.org/abs/2004.15001v2
- Date: Tue, 6 Oct 2020 09:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:13:22.789803
- Title: Don't Use English Dev: On the Zero-Shot Cross-Lingual Evaluation of
Contextual Embeddings
- Title(参考訳): 英語開発を使わない: 文脈埋め込みのゼロショット横断的評価について
- Authors: Phillip Keung, Yichao Lu, Julian Salazar, Vikas Bhardwaj
- Abstract要約: ゼロショット設定において、英語のデベロップメント精度をモデル選択に用いる標準的な手法は再現性のある結果を得るのを困難にしていることを示す。
ゼロショットの結果と一緒にオラクルスコアを提供することを推奨します。それでも、英語のデータを使って微調整しますが、ターゲットのデベロップメントセットでチェックポイントを選択します。
- 参考スコア(独自算出の注目度): 11.042674237070012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual contextual embeddings have demonstrated state-of-the-art
performance in zero-shot cross-lingual transfer learning, where multilingual
BERT is fine-tuned on one source language and evaluated on a different target
language. However, published results for mBERT zero-shot accuracy vary as much
as 17 points on the MLDoc classification task across four papers. We show that
the standard practice of using English dev accuracy for model selection in the
zero-shot setting makes it difficult to obtain reproducible results on the
MLDoc and XNLI tasks. English dev accuracy is often uncorrelated (or even
anti-correlated) with target language accuracy, and zero-shot performance
varies greatly at different points in the same fine-tuning run and between
different fine-tuning runs. These reproducibility issues are also present for
other tasks with different pre-trained embeddings (e.g., MLQA with XLM-R). We
recommend providing oracle scores alongside zero-shot results: still fine-tune
using English data, but choose a checkpoint with the target dev set. Reporting
this upper bound makes results more consistent by avoiding arbitrarily bad
checkpoints.
- Abstract(参考訳): 多言語コンテキスト埋め込みは、ゼロショット言語間移動学習において最先端の性能を示し、多言語BERTは1つのソース言語で微調整され、異なるターゲット言語で評価される。
しかし、mBERTゼロショット精度の公表結果は、4つの論文のMLDoc分類タスクにおいて17ポイントまで異なる。
ゼロショット設定において、英語のデベロップメント精度を用いてモデル選択を行う標準的な手法は、MLDocとXNLIタスクで再現可能な結果を得るのが困難であることを示す。
英語開発精度は、ターゲット言語精度と無相関(あるいは反相関)であり、ゼロショット性能は、同じ微調整実行時と異なる微調整実行時で大きく異なる。
これらの再現性問題は、異なる事前訓練された埋め込み(例えば、XLM-RのMLQA)のタスクにも存在している。
ゼロショットの結果と一緒にオラクルスコアを提供することを推奨します。それでも、英語のデータを使って微調整しますが、ターゲットのデベロップメントセットでチェックポイントを選択します。
この上界を報告すれば、任意に悪いチェックポイントを避けることで結果がより一貫したものになる。
関連論文リスト
- Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual
Understanding With Multilingual Language Models [95.32691891392903]
本稿では,プロンプトチューニングを用いた様々なNLUタスクの言語間評価を行い,それを微調整と比較する。
その結果, アクシデントチューニングは, データセット間の微調整よりもはるかに優れた言語間移動を実現することがわかった。
論文 参考訳(メタデータ) (2022-10-22T05:48:02Z) - Aligned Weight Regularizers for Pruning Pretrained Neural Networks [6.000551438232907]
標準教師付き学習をゼロショット設定と比較した場合, 等級ベースプルーニングにおいて, 明確な性能差があることが示されている。
本稿では,切断ネットワークと未切断ネットワークのユニット間のアライメントを最大化する2つの重み正規化器を提案する。
論文 参考訳(メタデータ) (2022-04-04T11:06:42Z) - On the Relation between Syntactic Divergence and Zero-Shot Performance [22.195133438732633]
我々は、英語から多種多様な言語にパースするUniversal Dependencies (UD) を移譲し、2つの実験を行う。
我々は、英語のソースエッジが翻訳で保存される範囲に基づいてゼロショット性能を解析する。
両実験の結果から,言語間安定性とゼロショット解析性能の強い関係が示唆された。
論文 参考訳(メタデータ) (2021-10-09T21:09:21Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Subword Segmentation and a Single Bridge Language Affect Zero-Shot
Neural Machine Translation [36.4055239280145]
WMTデータに基づいて学習した多言語EN$leftrightarrow$FR,CS,DE,FIシステムのゼロショット性能について検討した。
ゼロショット翻訳におけるソースのコピーに対するバイアスを観察し、サブワードセグメンテーションの選択がこのバイアスにどのように影響するかを考察する。
論文 参考訳(メタデータ) (2020-11-03T13:45:54Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。