論文の概要: Bilingual Dictionary Based Neural Machine Translation without Using
Parallel Sentences
- arxiv url: http://arxiv.org/abs/2007.02671v1
- Date: Mon, 6 Jul 2020 12:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:27:51.787052
- Title: Bilingual Dictionary Based Neural Machine Translation without Using
Parallel Sentences
- Title(参考訳): 並列文を用いないバイリンガル辞書に基づくニューラルマシン翻訳
- Authors: Xiangyu Duan, Baijun Ji, Hao Jia, Min Tan, Min Zhang, Boxing Chen,
Weihua Luo and Yue Zhang
- Abstract要約: そこで本稿では, 並列文をベースとした機械翻訳(MT)を新たに提案する。
バイリンガル辞書を検索して翻訳する単言語話者学習能力に感化されて,MTシステムがどの程度の確率で到達できるかを確認するタスクを提案する。
- 参考スコア(独自算出の注目度): 45.99290614777277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new task of machine translation (MT), which is
based on no parallel sentences but can refer to a ground-truth bilingual
dictionary. Motivated by the ability of a monolingual speaker learning to
translate via looking up the bilingual dictionary, we propose the task to see
how much potential an MT system can attain using the bilingual dictionary and
large scale monolingual corpora, while is independent on parallel sentences. We
propose anchored training (AT) to tackle the task. AT uses the bilingual
dictionary to establish anchoring points for closing the gap between source
language and target language. Experiments on various language pairs show that
our approaches are significantly better than various baselines, including
dictionary-based word-by-word translation, dictionary-supervised cross-lingual
word embedding transformation, and unsupervised MT. On distant language pairs
that are hard for unsupervised MT to perform well, AT performs remarkably
better, achieving performances comparable to supervised SMT trained on more
than 4M parallel sentences.
- Abstract(参考訳): 本稿では,機械翻訳の新しいタスクを提案する。これは,並列文をベースとせず,二言語辞書を参照することができる。
本研究は,多言語辞書を検索して翻訳する単言語話者学習の能力に動機づけられ,並列文に依存しながら,多言語辞書と大規模単言語コーパスを用いてmtシステムがどの程度の能力が得られるかを確認するタスクを提案する。
我々は,課題に取り組むためのアンカートレーニング(at)を提案する。
ATはバイリンガル辞書を使用して、ソース言語とターゲット言語の間のギャップを埋めるためのアンカリングポイントを確立する。
様々な言語対の実験から,辞書ベースの単語翻訳,辞書による言語間単語埋め込み変換,教師なしMTの非教師なしMTの動作が困難である遠隔言語対において,ATは,4M以上のパラレル文で訓練された教師付きSMTに匹敵する性能を達成し,その性能を著しく向上することを示す。
関連論文リスト
- Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource
Languages [1.8787713898828164]
本稿では,辞書の品質,学習データセットのサイズ,言語家族などの影響を詳細に分析する。
複数の低リソーステスト言語で得られた結果は、ベースラインよりもバイリンガル辞書ベースの方法の明確な利点を示している。
論文 参考訳(メタデータ) (2022-06-09T12:03:29Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Assessing the Bilingual Knowledge Learned by Neural Machine Translation
Models [72.56058378313963]
NMTモデルで学習したバイリンガル知識をフレーズテーブルで評価することで,このギャップを埋める。
NMTモデルは、単純なものから複雑なものまでパターンを学習し、トレーニング例から本質的なバイリンガル知識を抽出する。
論文 参考訳(メタデータ) (2020-04-28T03:44:34Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。