論文の概要: Generative Imagination Elevates Machine Translation
- arxiv url: http://arxiv.org/abs/2009.09654v2
- Date: Tue, 13 Apr 2021 03:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 03:55:54.611335
- Title: Generative Imagination Elevates Machine Translation
- Title(参考訳): 生成的イマジネーションは機械翻訳を増大させる
- Authors: Quanyu Long, Mingxuan Wang, Lei Li
- Abstract要約: 視覚的想像力による新しい機械翻訳手法であるImagiTを提案する。
ImagiTはまず、原文から視覚表現を生成することを学習し、その後、原文と「想像表現」の両方を用いてターゲット翻訳を生成する。
実験によると、ImagiTは視覚的想像力の恩恵を受けており、テキストのみのニューラルマシン翻訳ベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 37.78397666835735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are common semantics shared across text and images. Given a sentence in
a source language, whether depicting the visual scene helps translation into a
target language? Existing multimodal neural machine translation methods (MNMT)
require triplets of bilingual sentence - image for training and tuples of
source sentence - image for inference. In this paper, we propose ImagiT, a
novel machine translation method via visual imagination. ImagiT first learns to
generate visual representation from the source sentence, and then utilizes both
source sentence and the "imagined representation" to produce a target
translation. Unlike previous methods, it only needs the source sentence at the
inference time. Experiments demonstrate that ImagiT benefits from visual
imagination and significantly outperforms the text-only neural machine
translation baselines. Further analysis reveals that the imagination process in
ImagiT helps fill in missing information when performing the degradation
strategy.
- Abstract(参考訳): テキストと画像間で共有される共通の意味論がある。
ソース言語で文章が与えられると、視覚シーンの描写がターゲット言語への翻訳に役立つか?
既存のマルチモーダルニューラルネットワーク翻訳法(MNMT)では、推論にはバイリンガル文(トレーニング用の画像とソース文のタプル)のトリプルが必要である。
本稿では,視覚的想像力による新しい機械翻訳手法であるImagiTを提案する。
ImagiTはまず、原文から視覚表現を生成することを学習し、その後、原文と「想像表現」の両方を用いてターゲット翻訳を生成する。
従来の方法とは異なり、推論時にのみソース文を必要とする。
実験によると、ImagiTは視覚的想像力の恩恵を受けており、テキストのみのニューラルマシン翻訳ベースラインを大幅に上回っている。
さらに分析した結果,ImagiTのイマジネーションプロセスは,劣化戦略を実行する際の不足情報を補うのに役立つことがわかった。
関連論文リスト
- An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multimodal Neural Machine Translation with Search Engine Based Image
Retrieval [4.662583832063716]
バイリンガルパラレルコーパスのための記述画像収集のためのオープン語彙画像検索手法を提案する。
提案手法は,強いベースラインに対する大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-26T08:42:06Z) - VALHALLA: Visual Hallucination for Machine Translation [64.86515924691899]
VALHALLAと呼ばれる視覚幻覚フレームワークを導入する。
推論時にのみソース文を必要とし、代わりにマルチモーダル機械翻訳に幻覚的視覚表現を使用する。
特に、ソース文が与えられた場合、入力テキストから離散的な視覚表現を予測するために自己回帰幻覚変換器が使用される。
論文 参考訳(メタデータ) (2022-05-31T20:25:15Z) - Neural Machine Translation with Phrase-Level Universal Visual
Representations [11.13240570688547]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。
提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。
実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-19T11:21:13Z) - Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文 参考訳(メタデータ) (2020-09-15T18:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。