論文の概要: Dynamic Context-guided Capsule Network for Multimodal Machine
Translation
- arxiv url: http://arxiv.org/abs/2009.02016v1
- Date: Fri, 4 Sep 2020 06:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:19:21.155286
- Title: Dynamic Context-guided Capsule Network for Multimodal Machine
Translation
- Title(参考訳): マルチモーダル機械翻訳のための動的コンテキスト誘導カプセルネットワーク
- Authors: Huan Lin and Fandong Meng and Jinsong Su and Yongjing Yin and
Zhengyuan Yang and Yubin Ge and Jie Zhou and Jiebo Luo
- Abstract要約: マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
- 参考スコア(独自算出の注目度): 131.37130887834667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine translation (MMT), which mainly focuses on enhancing
text-only translation with visual features, has attracted considerable
attention from both computer vision and natural language processing
communities. Most current MMT models resort to attention mechanism, global
context modeling or multimodal joint representation learning to utilize visual
features. However, the attention mechanism lacks sufficient semantic
interactions between modalities while the other two provide fixed visual
context, which is unsuitable for modeling the observed variability when
generating translation. To address the above issues, in this paper, we propose
a novel Dynamic Context-guided Capsule Network (DCCN) for MMT. Specifically, at
each timestep of decoding, we first employ the conventional source-target
attention to produce a timestep-specific source-side context vector. Next, DCCN
takes this vector as input and uses it to guide the iterative extraction of
related visual features via a context-guided dynamic routing mechanism.
Particularly, we represent the input image with global and regional visual
features, we introduce two parallel DCCNs to model multimodal context vectors
with visual features at different granularities. Finally, we obtain two
multimodal context vectors, which are fused and incorporated into the decoder
for the prediction of the target word. Experimental results on the Multi30K
dataset of English-to-German and English-to-French translation demonstrate the
superiority of DCCN. Our code is available on
https://github.com/DeepLearnXMU/MM-DCCN.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てており、コンピュータビジョンと自然言語処理のコミュニティから注目されている。
現在のMMTモデルは、視覚的特徴を利用するために、注意機構、グローバルコンテキストモデリング、マルチモーダル共同表現学習を利用している。
しかし、アテンションメカニズムはモダリティ間の十分な意味的相互作用を欠き、他の2つは固定された視覚的コンテキストを提供する。
本稿では,MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
具体的には、デコーディングの各段階において、まず従来のソースターゲットアテンションを用いて、タイムステップ固有のソース側コンテキストベクトルを生成する。
次に、DCCNはこのベクトルを入力として、コンテキスト誘導動的ルーティング機構を通じて関連する視覚的特徴の反復抽出を誘導する。
特に,大域的・地域的な視覚特徴を持つ入力画像を表現し,異なる粒度の視覚特徴を持つマルチモーダルコンテキストベクトルをモデル化するための2つの並列DCCNを導入する。
最後に,目的語予測のためのデコーダに融合して組み込んだ2つのマルチモーダルコンテキストベクトルを得る。
英語とドイツ語、英語とフランス語の翻訳におけるマルチ30kデータセットの実験結果は、dccnの優位を示している。
私たちのコードはhttps://github.com/DeepLearnXMU/MM-DCCNで利用可能です。
関連論文リスト
- A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning [49.62044186504516]
文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。
近年の研究では、コンテキストエンコーダがノイズを発生させ、コンテキストの選択に頑健なモデルを実現することが示されている。
本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。
論文 参考訳(メタデータ) (2024-07-03T12:50:49Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for
Multimodal Machine Translation [31.911593690549633]
マルチモーダル機械翻訳(MMT)システムは、視覚的知識でニューラルネットワーク翻訳(NMT)を強化する。
注釈付き多言語視覚言語データが不足しているため、従来の作業は、強力なMTTモデルをゼロからトレーニングする際の課題に直面していた。
独立に訓練されたマルチモーダルM-CLIPと多言語mBARTを適応させるCLIPTransを提案する。
論文 参考訳(メタデータ) (2023-08-29T11:29:43Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。