論文の概要: "Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks
- arxiv url: http://arxiv.org/abs/2104.08384v1
- Date: Fri, 16 Apr 2021 21:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 11:07:39.299993
- Title: "Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks
- Title(参考訳): 言語横断課題に対応した「ウィキリー」ニューラルネットワーク翻訳
- Authors: Mohammad Sadegh Rasooli, Chris Callison-Burch, Derry Tanti Wijaya
- Abstract要約: リンクされたウィキペディアページの最初の文とタイトル、およびクロスリンガル画像キャプションは、二言語辞書を抽出し、ウィキペディアからパラレルテキストをマイニングするためのクロスリンガル単語埋め込みを抽出するシードパラレルデータのための強力な信号である。
画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。
アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
- 参考スコア(独自算出の注目度): 20.837515947519524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a simple but effective approach for leveraging Wikipedia for
neural machine translation as well as cross-lingual tasks of image captioning
and dependency parsing without using any direct supervision from external
parallel data or supervised models in the target language. We show that first
sentences and titles of linked Wikipedia pages, as well as cross-lingual image
captions, are strong signals for a seed parallel data to extract bilingual
dictionaries and cross-lingual word embeddings for mining parallel text from
Wikipedia. Our final model achieves high BLEU scores that are close to or
sometimes higher than strong supervised baselines in low-resource languages;
e.g. supervised BLEU of 4.0 versus 12.1 from our model in English-to-Kazakh.
Moreover, we tailor our wikily translation models to unsupervised image
captioning and cross-lingual dependency parser transfer. In image captioning,
we train a multi-tasking machine translation and image captioning pipeline for
Arabic and English from which the Arabic training data is a wikily translation
of the English captioning data. Our captioning results in Arabic are slightly
better than that of its supervised model. In dependency parsing, we translate a
large amount of monolingual text, and use it as an artificial training data in
an annotation projection framework. We show that our model outperforms recent
work on cross-lingual transfer of dependency parsers.
- Abstract(参考訳): 我々は、外部の並列データや対象言語の教師付きモデルからの直接の監督を使わずに、画像キャプションや依存関係解析の言語間タスクと同様に、ニューラルネットワーク翻訳にウィキペディアを活用するための単純だが効果的なアプローチを提案する。
リンクされたwikipediaページの最初の文とタイトル、およびクロスリンガル画像キャプションは、ウィキペディアからパラレルテキストをマイニングするためのバイリンガル辞書とクロスリンガル単語埋め込みを抽出するためのシード並列データのための強いシグナルであることを示す。
我々の最終モデルは、低リソース言語における強い教師付きベースラインに近いか、時には高いBLEUスコアを達成する。
英国・カザフスタンのモデルによるBLEUは4.0対12.1である。
さらに、ウィキリー翻訳モデルを教師なし画像キャプションと言語間依存関係パーサ転送に調整する。
画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。
アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
依存関係解析では、大量の単言語テキストを翻訳し、アノテーション投影フレームワークにおける人工的なトレーニングデータとして使用する。
我々のモデルは、依存関係パーサの言語間転送に関する最近の研究よりも優れていることを示す。
関連論文リスト
- Using Machine Translation to Augment Multilingual Classification [0.0]
複数の言語にまたがる分類課題に対して,機械翻訳を用いて多言語モデルを微調整する効果について検討する。
翻訳されたデータは、多言語分類器をチューニングするのに十分な品質であり、この新規な損失技術は、それなしでチューニングされたモデルよりも幾らか改善できることを示す。
論文 参考訳(メタデータ) (2024-05-09T00:31:59Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z) - Cross-modal Language Generation using Pivot Stabilization for Web-scale
Language Coverage [23.71195344840051]
画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、直接的に損なわれる。
既存の英語アノテーションと機械翻訳版の両方をトレーニング時に直接活用する Pivot-Language Generation Stabilization (PLuGS) というアプローチについて述べる。
PLuGSモデルは,5つの異なる言語を対象とした評価において,他の候補解よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T06:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。