論文の概要: Incorporating Probing Signals into Multimodal Machine Translation via
Visual Question-Answering Pairs
- arxiv url: http://arxiv.org/abs/2310.17133v1
- Date: Thu, 26 Oct 2023 04:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:23:27.862247
- Title: Incorporating Probing Signals into Multimodal Machine Translation via
Visual Question-Answering Pairs
- Title(参考訳): 視覚的質問応答ペアによるマルチモーダル機械翻訳における探索信号の取り込み
- Authors: Yuxin Zuo, Bei Li, Chuanhao Lv, Tong Zheng, Tong Xiao, Jingbo Zhu
- Abstract要約: マルチモーダル機械翻訳(MMT)システムは、テキスト入力が完了すると視覚情報に対する感度が低下する。
ソーステキストからVQAスタイルのペアを並列に生成する手法が提案されている。
MMT-VQAマルチタスク学習フレームワークを導入し、データセットからの明示的な探索信号をMTトレーニングプロセスに組み込む。
- 参考スコア(独自算出の注目度): 45.41083125321069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an in-depth study of multimodal machine translation
(MMT), examining the prevailing understanding that MMT systems exhibit
decreased sensitivity to visual information when text inputs are complete.
Instead, we attribute this phenomenon to insufficient cross-modal interaction,
rather than image information redundancy. A novel approach is proposed to
generate parallel Visual Question-Answering (VQA) style pairs from the source
text, fostering more robust cross-modal interaction. Using Large Language
Models (LLMs), we explicitly model the probing signal in MMT to convert it into
VQA-style data to create the Multi30K-VQA dataset. An MMT-VQA multitask
learning framework is introduced to incorporate explicit probing signals from
the dataset into the MMT training process. Experimental results on two
widely-used benchmarks demonstrate the effectiveness of this novel approach.
Our code and data would be available at:
\url{https://github.com/libeineu/MMT-VQA}.
- Abstract(参考訳): 本稿では,マルチモーダル機械翻訳(MMT)の詳細な研究を行い,テキスト入力が完了すると,MMTシステムは視覚情報に対する感度が低下することを示す。
代わりに、この現象を画像情報の冗長性ではなく、不十分なクロスモーダル相互作用に分類する。
ソーステキストから並列視覚質問応答(VQA)スタイルのペアを生成する手法が提案され,より堅牢な相互モーダルインタラクションが実現された。
LLM(Large Language Models)を用いて、MMT内の探索信号を明示的にモデル化し、VQAスタイルのデータに変換し、Multi30K-VQAデータセットを作成する。
MMT-VQAマルチタスク学習フレームワークを導入し、データセットからの明示的な探索信号をMTトレーニングプロセスに組み込む。
2つの広く利用されているベンチマークの実験結果は、この新しいアプローチの有効性を示している。
私たちのコードとデータは、 \url{https://github.com/libeineu/mmt-vqa} で利用可能です。
関連論文リスト
- Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Multilevel Hierarchical Network with Multiscale Sampling for Video
Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。
MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。
マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。
PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文 参考訳(メタデータ) (2022-05-09T06:28:56Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - Neural Machine Translation with Phrase-Level Universal Visual
Representations [11.13240570688547]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。
提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。
実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-19T11:21:13Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。