論文の概要: Simultaneous Machine Translation with Visual Context
- arxiv url: http://arxiv.org/abs/2009.07310v3
- Date: Tue, 13 Oct 2020 10:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 06:05:07.275740
- Title: Simultaneous Machine Translation with Visual Context
- Title(参考訳): 視覚コンテキストを用いた同時機械翻訳
- Authors: Ozan Caglayan, Julia Ive, Veneta Haralampieva, Pranava Madhyastha,
Lo\"ic Barrault and Lucia Specia
- Abstract要約: 同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
- 参考スコア(独自算出の注目度): 42.88121241096681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous machine translation (SiMT) aims to translate a continuous input
text stream into another language with the lowest latency and highest quality
possible. The translation thus has to start with an incomplete source text,
which is read progressively, creating the need for anticipation. In this paper,
we seek to understand whether the addition of visual information can compensate
for the missing source context. To this end, we analyse the impact of different
multimodal approaches and visual features on state-of-the-art SiMT frameworks.
Our results show that visual context is helpful and that visually-grounded
models based on explicit object region information are much better than
commonly used global features, reaching up to 3 BLEU points improvement under
low latency scenarios. Our qualitative analysis illustrates cases where only
the multimodal systems are able to translate correctly from English into
gender-marked languages, as well as deal with differences in word order, such
as adjective-noun placement between English and French.
- Abstract(参考訳): 同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
したがって、翻訳は不完全なソーステキストから始まり、徐々に読み上げられ、予測の必要性が生じる。
本稿では,視覚情報の追加が情報源コンテキストの欠落を補償できるかどうかを理解することを目的とする。
この目的のために、我々は様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
その結果、視覚的コンテキストは有用であり、明示的なオブジェクト領域情報に基づく視覚的グラウンドモデルの方がグローバルな特徴よりもはるかに優れており、低レイテンシシナリオ下では最大3 BLEUポイントの改善が達成できることがわかった。
質的分析では,複数形態のシステムのみが,英語から性記号付き言語に正しく翻訳できるだけでなく,形容詞名詞による英語とフランス語の配置など,単語順の差異にも対処できることを示す。
関連論文リスト
- AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。
視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。
以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T08:19:10Z) - MTCue: Learning Zero-Shot Control of Extra-Textual Attributes by
Leveraging Unstructured Context in Neural Machine Translation [3.703767478524629]
これは、すべてのコンテキスト(離散変数を含む)をテキストとして解釈する新しいニューラルネットワーク翻訳(NMT)フレームワークである。
MTCueはコンテキストの抽象的な表現を学び、異なるデータ設定間で転送可能性を実現する。
MTCueは英語のテキストの翻訳において「タグ付け」ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-25T10:06:08Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Exploiting Multimodal Reinforcement Learning for Simultaneous Machine
Translation [33.698254673743904]
a)高い翻訳品質と低レイテンシの間の良いトレードオフを学ぶための適応ポリシーと、(b)このプロセスをサポートするための視覚的情報です。
強化学習を用いた同時機械翻訳のマルチモーダルアプローチを提案し、エージェントと環境の両方に視覚情報とテキスト情報を統合する戦略を提案します。
論文 参考訳(メタデータ) (2021-02-22T22:26:22Z) - Towards Multimodal Simultaneous Neural Machine Translation [28.536262015508722]
同時翻訳では、リアルタイム理解を実現するために、話者の発話が完了する前に文章を翻訳する。
このタスクは、復号時に入力情報が不足しているため、一般的な全文翻訳よりもはるかに難しい。
視覚情報を付加的なモダリティとして活用するマルチモーダル同時ニューラルネットワーク翻訳(MSNMT)を提案する。
論文 参考訳(メタデータ) (2020-04-07T08:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。