論文の概要: Supervised Visual Attention for Simultaneous Multimodal Machine
Translation
- arxiv url: http://arxiv.org/abs/2201.09324v1
- Date: Sun, 23 Jan 2022 17:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 15:22:14.625340
- Title: Supervised Visual Attention for Simultaneous Multimodal Machine
Translation
- Title(参考訳): 同時マルチモーダル機械翻訳のための教師付き視覚注意
- Authors: Veneta Haralampieva, Ozan Caglayan, Lucia Specia
- Abstract要約: 本稿では,トランスフォーマーを用いた最初の同時機械翻訳(MMT)アーキテクチャを提案する。
我々は、ラベル付きフレーズ領域アライメントを用いて視覚的注意機構を誘導する補助的な監視信号を用いて、このモデルを拡張する。
その結果,教師付き視覚的注意はMTモデルの翻訳品質を常に向上させることがわかった。
- 参考スコア(独自算出の注目度): 47.18251159303909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a surge in research in multimodal machine
translation (MMT), where additional modalities such as images are used to
improve translation quality of textual systems. A particular use for such
multimodal systems is the task of simultaneous machine translation, where
visual context has been shown to complement the partial information provided by
the source sentence, especially in the early phases of translation (Caglayanet
al., 2020a; Imankulova et al., 2020). In this paper, we propose the first
Transformer-based simultaneous MMT architecture, which has not been previously
explored in the field. Additionally, we extend this model with an auxiliary
supervision signal that guides its visual attention mechanism using labelled
phrase-region alignments. We perform comprehensive experiments on three
language directions and conduct thorough quantitative and qualitative analyses
using both automatic metrics and manual inspection. Our results show that (i)
supervised visual attention consistently improves the translation quality of
the MMT models, and (ii) fine-tuning the MMT with supervision loss enabled
leads to better performance than training the MMT from scratch. Compared to the
state-of-the-art, our proposed model achieves improvements of up to 2.3 BLEU
and 3.5 METEOR points.
- Abstract(参考訳): 近年,マルチモーダル機械翻訳(mmt)の研究が急増しており,画像などの付加的なモダリティをテキストシステムの翻訳品質向上に活用している。
このようなマルチモーダルシステムの特別な用途は同時機械翻訳のタスクであり、特に翻訳の初期段階において、原文が提供する部分的な情報を補うために視覚的な文脈が示されてきた(caglayanet al., 2020a; imankulova et al., 2020)。
本稿では,これまでに検討されていない最初の変圧器ベースの同時mmtアーキテクチャを提案する。
さらに,ラベル付き句領域アライメントを用いて視覚注意機構を誘導する補助監督信号により,このモデルを拡張した。
我々は3つの言語方向に関する総合的な実験を行い、自動測定と手動検査の両方を用いて徹底的な量的および質的な分析を行う。
私たちの結果は
i)教師付き視覚的注意はMTモデルの翻訳品質を一貫して改善し、
(2)MMTを微調整することで、MMTをスクラッチからトレーニングするよりも優れた性能が得られる。
現状と比較すると,提案手法は最大2.3BLEU点と3.5 METEOR点の改善を実現している。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Exploiting Multimodal Reinforcement Learning for Simultaneous Machine
Translation [33.698254673743904]
a)高い翻訳品質と低レイテンシの間の良いトレードオフを学ぶための適応ポリシーと、(b)このプロセスをサポートするための視覚的情報です。
強化学習を用いた同時機械翻訳のマルチモーダルアプローチを提案し、エージェントと環境の両方に視覚情報とテキスト情報を統合する戦略を提案します。
論文 参考訳(メタデータ) (2021-02-22T22:26:22Z) - Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文 参考訳(メタデータ) (2020-09-15T18:19:11Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。