論文の概要: Gumbel-Attention for Multi-modal Machine Translation
- arxiv url: http://arxiv.org/abs/2103.08862v1
- Date: Tue, 16 Mar 2021 05:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:32:02.897116
- Title: Gumbel-Attention for Multi-modal Machine Translation
- Title(参考訳): マルチモーダル機械翻訳におけるGumbel-Attention
- Authors: Pengbo Liu, Hailong Cao, Tiejun Zhao
- Abstract要約: マルチモーダル機械翻訳(MMT)は視覚情報を導入して翻訳品質を向上させる。
既存のMTモデルは、画像がテキストに関係のない情報をもたらし、モデルに大きなノイズを与え、翻訳品質に影響を与えるという問題を無視する。
画像特徴のテキスト関連部分を選択するマルチモーダル機械翻訳のための新しいGumbel-Attentionを提案します。
- 参考スコア(独自算出の注目度): 18.4381138617661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal machine translation (MMT) improves translation quality by
introducing visual information. However, the existing MMT model ignores the
problem that the image will bring information irrelevant to the text, causing
much noise to the model and affecting the translation quality. In this paper,
we propose a novel Gumbel-Attention for multi-modal machine translation, which
selects the text-related parts of the image features. Specifically, different
from the previous attention-based method, we first use a differentiable method
to select the image information and automatically remove the useless parts of
the image features. Through the score matrix of Gumbel-Attention and image
features, the image-aware text representation is generated. And then, we
independently encode the text representation and the image-aware text
representation with the multi-modal encoder. Finally, the final output of the
encoder is obtained through multi-modal gated fusion. Experiments and case
analysis proves that our method retains the image features related to the text,
and the remaining parts help the MMT model generates better translations.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)は視覚情報を導入して翻訳品質を向上させる。
しかし、既存のMTモデルは、画像がテキストに関係のない情報をもたらし、モデルに大きなノイズを与え、翻訳品質に影響を与えるという問題を無視する。
本稿では,画像特徴のテキスト関連部分を選択するマルチモーダル機械翻訳のためのGumbel-Attentionを提案する。
具体的には, 先行手法と異なり, まず, 画像情報の選択と, 画像特徴の無駄な部分を自動削除に微分可能な手法を用いる。
Gumbel-Attentionと画像特徴のスコア行列を介して、画像認識テキスト表現を生成する。
そして,マルチモーダルエンコーダを用いて,テキスト表現と画像認識テキスト表現を独立に符号化する。
最後に、エンコーダの最終出力はマルチモーダルゲート融合によって得られる。
実験とケース分析により,本手法はテキストに関連する画像の特徴を保ち,残りの部分はMTモデルがより良い翻訳を生成するのに役立つことが示された。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Distill the Image to Nowhere: Inversion Knowledge Distillation for
Multimodal Machine Translation [6.845232643246564]
IKD-MMTは, 逆知識蒸留方式を用いて, 画像自由推論フェーズをサポートする新しいMMTフレームワークである。
知識蒸留モジュールを用いてマルチモーダル特徴生成を行い、ソーステキストのみからマルチモーダル特徴を直接生成する。
実験では,この手法を,全画像マストフレームワークを網羅的に競合するか,あるいは超越した最初の画像フリーアプローチとみなす。
論文 参考訳(メタデータ) (2022-10-10T07:36:59Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - MCMI: Multi-Cycle Image Translation with Mutual Information Constraints [40.556049046897115]
教師なし画像間翻訳のための相互情報に基づくフレームワークを提案する。
MCMIアプローチでは, 単一サイクル画像翻訳モデルを, 多サイクル翻訳設定で繰り返し使用可能なモジュールとして扱う。
MCMIでトレーニングしたモデルでは,高品質な画像が生成され,セマンティックなマッピングがより学習されることを示す。
論文 参考訳(メタデータ) (2020-07-06T17:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。