論文の概要: A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences
- arxiv url: http://arxiv.org/abs/2010.08725v1
- Date: Sat, 17 Oct 2020 06:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 09:04:09.921155
- Title: A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences
- Title(参考訳): 比較文を用いた日英多モーダルニューラルネットワーク翻訳コーパス
- Authors: Andrew Merritt, Chenhui Chu, Yuki Arase
- Abstract要約: 既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
- 参考スコア(独自算出の注目度): 21.43163704217968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal neural machine translation (NMT) has become an increasingly
important area of research over the years because additional modalities, such
as image data, can provide more context to textual data. Furthermore, the
viability of training multimodal NMT models without a large parallel corpus
continues to be investigated due to low availability of parallel sentences with
images, particularly for English-Japanese data. However, this void can be
filled with comparable sentences that contain bilingual terms and parallel
phrases, which are naturally created through media such as social network posts
and e-commerce product descriptions. In this paper, we propose a new multimodal
English-Japanese corpus with comparable sentences that are compiled from
existing image captioning datasets. In addition, we supplement our comparable
sentences with a smaller parallel corpus for validation and test purposes. To
test the performance of this comparable sentence translation scenario, we train
several baseline NMT models with our comparable corpus and evaluate their
English-Japanese translation performance. Due to low translation scores in our
baseline experiments, we believe that current multimodal NMT models are not
designed to effectively utilize comparable sentence data. Despite this, we hope
for our corpus to be used to further research into multimodal NMT with
comparable sentences.
- Abstract(参考訳): 画像データなどの追加のモダリティがテキストデータにより多くのコンテキストを提供するため、NMT(Multimodal Neural Machine Translation)は長年にわたって研究の重要領域になりつつある。
さらに, パラレルコーパスを伴わないマルチモーダルNMTモデルの訓練は, 特に英和データにおいて, 画像との並列文の可用性が低いため, 引き続き検討されている。
しかし、この空白は、ソーシャルネットワーク投稿やeコマース製品記述のようなメディアによって自然に作られる、バイリンガル用語と平行句を含む比較文で埋められる。
本稿では,既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
さらに,検証やテスト目的のために,比較文をより小さな並列コーパスで補完する。
この同等の文翻訳シナリオの性能をテストするために,我々の比較コーパスを用いていくつかのベースラインNMTモデルを訓練し,その英和翻訳性能を評価する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
それにもかかわらず、私たちのコーパスは、比較文によるマルチモーダルNTTのさらなる研究に活用されることを願っている。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - Multiple Segmentations of Thai Sentences for Neural Machine Translation [6.1335228645093265]
タイ語における単語分割手法の異なる文対を複製することにより、タイ語並列データの集合を拡大する方法を示す。
実験によると、これらのデータセットを組み合わせることで、教師付き分割ツールを使用して分割されたデータセットでトレーニングされたNMTモデルのパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2020-04-23T21:48:58Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。