論文の概要: Towards Multimodal Simultaneous Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.03180v2
- Date: Fri, 23 Oct 2020 04:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:47:44.972983
- Title: Towards Multimodal Simultaneous Neural Machine Translation
- Title(参考訳): マルチモーダル同時ニューラルマシン翻訳に向けて
- Authors: Aizhan Imankulova, Masahiro Kaneko, Tosho Hirasawa and Mamoru Komachi
- Abstract要約: 同時翻訳では、リアルタイム理解を実現するために、話者の発話が完了する前に文章を翻訳する。
このタスクは、復号時に入力情報が不足しているため、一般的な全文翻訳よりもはるかに難しい。
視覚情報を付加的なモダリティとして活用するマルチモーダル同時ニューラルネットワーク翻訳(MSNMT)を提案する。
- 参考スコア(独自算出の注目度): 28.536262015508722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simultaneous translation involves translating a sentence before the speaker's
utterance is completed in order to realize real-time understanding in multiple
languages. This task is significantly more challenging than the general full
sentence translation because of the shortage of input information during
decoding. To alleviate this shortage, we propose multimodal simultaneous neural
machine translation (MSNMT), which leverages visual information as an
additional modality. Our experiments with the Multi30k dataset showed that
MSNMT significantly outperforms its text-only counterpart in more timely
translation situations with low latency. Furthermore, we verified the
importance of visual information during decoding by performing an adversarial
evaluation of MSNMT, where we studied how models behaved with incongruent input
modality and analyzed the effect of different word order between source and
target languages.
- Abstract(参考訳): 同時翻訳は、複数の言語でリアルタイム理解を実現するために、話者の発話が完了する前に文を翻訳することを含む。
このタスクは、デコード中に入力情報が不足しているため、一般的な全文翻訳よりもかなり困難である。
この不足を軽減するために,視覚情報を付加的モダリティとして活用するマルチモーダル同時ニューラルマシン翻訳(msnmt)を提案する。
Multi30kデータセットを用いた実験により、MSNMTは低レイテンシでよりタイムリーな翻訳状況において、テキストのみよりも大幅に優れていた。
さらに,msnmtの逆評価を行い,デコード中の視覚情報の重要性を検証し,不正確な入力モダリティを用いてモデルがどのように振る舞うかを検討し,ソース言語とターゲット言語間の異なる単語順の影響を解析した。
関連論文リスト
- TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Understanding and Bridging the Modality Gap for Speech Translation [11.13240570688547]
マルチタスク学習は、機械翻訳(MT)とエンドツーエンド音声翻訳(ST)の間で知識を共有する効果的な方法の1つである。
しかし、音声とテキストの違いにより、STとMTの間には常にギャップがある。
本稿では,まず,このモダリティギャップを対象側の表現差から理解し,そのモダリティギャップとニューラルマシン翻訳における他のよく知られた問題,すなわち露出バイアスを関連付けることを目的とする。
論文 参考訳(メタデータ) (2023-05-15T15:09:18Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文 参考訳(メタデータ) (2020-09-15T18:19:11Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。