論文の概要: Growing Together: Modeling Human Language Learning With n-Best
Multi-Checkpoint Machine Translation
- arxiv url: http://arxiv.org/abs/2006.04050v1
- Date: Sun, 7 Jun 2020 05:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 07:11:52.845446
- Title: Growing Together: Modeling Human Language Learning With n-Best
Multi-Checkpoint Machine Translation
- Title(参考訳): 共に成長する:n-Best Multi-Checkpoint Machine Translationによる人間の言語学習のモデル化
- Authors: El Moatez Billah Nagoudi, Muhammad Abdul-Mageed, Hasan Cavusoglu
- Abstract要約: 我々は、MTモデルを様々な訓練段階において、異なるレベルの人間の学習者とみなす。
我々は同じモデルから複数のチェックポイントのアンサンブルを用いて、様々なレベルの流速で翻訳シーケンスを生成する。
我々は、ポルトガル語の共有タスクテストデータに対して、公式英語の6つのチェックポイントモデルアンサンブルで37.57マクロF1を達成する。
- 参考スコア(独自算出の注目度): 8.9379057739817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our submission to the 2020 Duolingo Shared Task on Simultaneous
Translation And Paraphrase for Language Education (STAPLE) (Mayhew et al.,
2020). We view MT models at various training stages (i.e., checkpoints) as
human learners at different levels. Hence, we employ an ensemble of
multi-checkpoints from the same model to generate translation sequences with
various levels of fluency. From each checkpoint, for our best model, we sample
n-Best sequences (n=10) with a beam width =100. We achieve 37.57 macro F1 with
a 6 checkpoint model ensemble on the official English to Portuguese shared task
test data, outperforming a baseline Amazon translation system of 21.30 macro F1
and ultimately demonstrating the utility of our intuitive method.
- Abstract(参考訳): 本稿では,言語教育のための同時翻訳とパラフレーズに関する2020年のDuolingo Shared Taskへの提出について述べる(Mayhew et al., 2020)。
我々は、MTモデルを様々な訓練段階(チェックポイント)において、異なるレベルの人間の学習者とみなす。
したがって,同一モデルからの複数チェックポイントのアンサンブルを用いて,多様な流束レベルを持つ翻訳シーケンスを生成する。
各チェックポイントから、最良のモデルとして、ビーム幅=100のn-Best配列(n=10)をサンプリングする。
我々は、公式の英語からポルトガル語の共有タスクテストデータへの6つのチェックポイントモデルアンサンブルで37.57マクロF1を達成し、Amazonの21.30マクロF1のベースライン翻訳システムより優れ、最終的に直感的な手法の有用性を実証した。
関連論文リスト
- Enhancing Translation for Indigenous Languages: Experiments with
Multilingual Models [57.10972566048735]
本稿では,3つの方法のシステム記述について述べる。
M2M-100とmBART50という2つの多言語モデルと1つのバイリンガル(1対1)-ヘルシンキNLPスペイン語翻訳モデルを使いました。
アメリカから11の言語を実験し、使用したセットアップと、達成した成果を報告しました。
論文 参考訳(メタデータ) (2023-05-27T08:10:40Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Handshakes AI Research at CASE 2021 Task 1: Exploring different
approaches for multilingual tasks [0.22940141855172036]
ケース2021共有タスク1の目的は,多言語環境下での社会・政治・危機事象情報の検出と分類である。
提案書にはすべてのサブタスクのエントリが含まれており,得られたスコアが調査結果の妥当性を検証した。
論文 参考訳(メタデータ) (2021-10-29T07:58:49Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - ANDES at SemEval-2020 Task 12: A jointly-trained BERT multilingual model
for offensive language detection [0.6445605125467572]
我々は,提案言語にまたがる課題に対処するために,多言語BERTを微調整した単一モデルを共同で訓練した。
私たちの単一モデルは、最高のパフォーマンスシステムに近いパフォーマンスで、競争力のある結果を得ました。
論文 参考訳(メタデータ) (2020-08-13T16:07:00Z) - Automatic Machine Translation Evaluation in Many Languages via Zero-Shot
Paraphrasing [11.564158965143418]
我々は,機械翻訳評価の課題を,シーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとして捉えた。
我々は,パラフレーズ処理をゼロショット翻訳タスクとして扱う多言語NMTシステムとして,パラフレーズを訓練することを提案する。
我々の手法は単純で直感的で、訓練には人間の判断を必要としない。
論文 参考訳(メタデータ) (2020-04-30T03:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。