論文の概要: Vision Matters When It Should: Sanity Checking Multimodal Machine
Translation Models
- arxiv url: http://arxiv.org/abs/2109.03415v1
- Date: Wed, 8 Sep 2021 03:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:51:54.267751
- Title: Vision Matters When It Should: Sanity Checking Multimodal Machine
Translation Models
- Title(参考訳): ビジョンはいつ必要か: マルチモーダル機械翻訳モデルの正当性チェック
- Authors: Jiaoda Li, Duygu Ataman, Rico Sennrich
- Abstract要約: マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。
近年の研究では、MMTモデルの性能は、関連画像が非関連画像やノイズに置き換えられた場合にのみ、限界的に影響を受けることが示されている。
- 参考スコア(独自算出の注目度): 25.920891392933058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine translation (MMT) systems have been shown to outperform
their text-only neural machine translation (NMT) counterparts when visual
context is available. However, recent studies have also shown that the
performance of MMT models is only marginally impacted when the associated image
is replaced with an unrelated image or noise, which suggests that the visual
context might not be exploited by the model at all. We hypothesize that this
might be caused by the nature of the commonly used evaluation benchmark, also
known as Multi30K, where the translations of image captions were prepared
without actually showing the images to human translators. In this paper, we
present a qualitative study that examines the role of datasets in stimulating
the leverage of visual modality and we propose methods to highlight the
importance of visual signals in the datasets which demonstrate improvements in
reliance of models on the source images. Our findings suggest the research on
effective MMT architectures is currently impaired by the lack of suitable
datasets and careful consideration must be taken in creation of future MMT
datasets, for which we also provide useful insights.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。
しかし、近年の研究では、MMTモデルの性能は、関連する画像が無関係な画像やノイズに置き換えられた場合にのみ、わずかしか影響しないことが示されている。
これは、画像キャプションの翻訳を人間の翻訳者に実際に見せることなく作成する、一般的に使用される評価ベンチマーク(multi30kとも呼ばれる)の性質によるものではないかと仮定する。
本稿では,視覚モダリティの活用を刺激するデータセットの役割を検討する定性的な研究を行い,情報源画像におけるモデル依存度の向上を示すデータセットにおける視覚信号の重要性を強調する手法を提案する。
この結果から, MMT アーキテクチャの有効性に関する研究は, 適切なデータセットの欠如に障害があり, 今後の MMT データセットの作成に注意を要することが示唆された。
関連論文リスト
- 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Increasing Visual Awareness in Multimodal Neural Machine Translation
from an Information Theoretic Perspective [14.100033405711685]
マルチモーダル機械翻訳(MMT)は、原文と対応する画像とを対応付けて翻訳品質を向上させることを目的としている。
本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。
論文 参考訳(メタデータ) (2022-10-16T08:11:44Z) - Neural Machine Translation with Phrase-Level Universal Visual
Representations [11.13240570688547]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。
提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。
実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-19T11:21:13Z) - On Vision Features in Multimodal Machine Translation [34.41229863267296]
我々は,マルチモーダル機械翻訳における画像のパッチレベルの寄与を研究するために,選択的アテンションモデルを開発する。
この結果から,MMTモデル,特に現在のベンチマークが小規模でバイアスのある場合,慎重に検討する必要があることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:51:09Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Efficient Object-Level Visual Context Modeling for Multimodal Machine
Translation: Masking Irrelevant Objects Helps Grounding [25.590409802797538]
マルチモーダル機械翻訳のための視覚情報を効率的にキャプチャし探索するためのオブジェクトレベルのビジュアルコンテキストモデリングフレームワーク(OVC)を提案する。
OVCは、視覚的モダリティに無関係なオブジェクトをマスキングすることにより、望ましい視覚的オブジェクトに翻訳を根ざすようMTTを奨励します。
MMTデータセットの実験は、提案したOVCモデルが最先端のMTモデルより優れていることを示した。
論文 参考訳(メタデータ) (2020-12-18T11:10:00Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。