論文の概要: Increasing Visual Awareness in Multimodal Neural Machine Translation
from an Information Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2210.08478v1
- Date: Sun, 16 Oct 2022 08:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:20:30.171838
- Title: Increasing Visual Awareness in Multimodal Neural Machine Translation
from an Information Theoretic Perspective
- Title(参考訳): 情報理論からみたマルチモーダルニューラルマシン翻訳における視覚認知の増大
- Authors: Baijun Ji, Tong Zhang, Yicheng Zou, Bojie Hu and Si Shen
- Abstract要約: マルチモーダル機械翻訳(MMT)は、原文と対応する画像とを対応付けて翻訳品質を向上させることを目的としている。
本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。
- 参考スコア(独自算出の注目度): 14.100033405711685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine translation (MMT) aims to improve translation quality by
equipping the source sentence with its corresponding image. Despite the
promising performance, MMT models still suffer the problem of input
degradation: models focus more on textual information while visual information
is generally overlooked. In this paper, we endeavor to improve MMT performance
by increasing visual awareness from an information theoretic perspective. In
detail, we decompose the informative visual signals into two parts:
source-specific information and target-specific information. We use mutual
information to quantify them and propose two methods for objective optimization
to better leverage visual signals. Experiments on two datasets demonstrate that
our approach can effectively enhance the visual awareness of MMT model and
achieve superior results against strong baselines.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)は、原文を対応する画像に合わせることで翻訳品質を向上させることを目的としている。
有望な性能にもかかわらず、MTモデルは依然として入力劣化の問題に悩まされている。
本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。
本稿では,情報的視覚信号をソース固有情報とターゲット固有情報という2つの部分に分割する。
相互情報を用いてそれらの定量化を行い,客観的最適化のための2つの手法を提案する。
2つのデータセットの実験により,MMTモデルの視覚的認識を効果的に向上し,強力なベースラインに対して優れた結果が得られることが示された。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Visual Explanations of Image-Text Representations via Multi-Modal
Information Bottleneck Attribution [55.9275401570741]
視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。
視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
論文 参考訳(メタデータ) (2023-12-28T18:02:22Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Generalization algorithm of multimodal pre-training model based on
graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文 参考訳(メタデータ) (2023-02-16T03:34:08Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Neural Machine Translation with Phrase-Level Universal Visual
Representations [11.13240570688547]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。
提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。
実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-19T11:21:13Z) - Vision Matters When It Should: Sanity Checking Multimodal Machine
Translation Models [25.920891392933058]
マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。
近年の研究では、MMTモデルの性能は、関連画像が非関連画像やノイズに置き換えられた場合にのみ、限界的に影響を受けることが示されている。
論文 参考訳(メタデータ) (2021-09-08T03:32:48Z) - Exploiting Multimodal Reinforcement Learning for Simultaneous Machine
Translation [33.698254673743904]
a)高い翻訳品質と低レイテンシの間の良いトレードオフを学ぶための適応ポリシーと、(b)このプロセスをサポートするための視覚的情報です。
強化学習を用いた同時機械翻訳のマルチモーダルアプローチを提案し、エージェントと環境の両方に視覚情報とテキスト情報を統合する戦略を提案します。
論文 参考訳(メタデータ) (2021-02-22T22:26:22Z) - Efficient Object-Level Visual Context Modeling for Multimodal Machine
Translation: Masking Irrelevant Objects Helps Grounding [25.590409802797538]
マルチモーダル機械翻訳のための視覚情報を効率的にキャプチャし探索するためのオブジェクトレベルのビジュアルコンテキストモデリングフレームワーク(OVC)を提案する。
OVCは、視覚的モダリティに無関係なオブジェクトをマスキングすることにより、望ましい視覚的オブジェクトに翻訳を根ざすようMTTを奨励します。
MMTデータセットの実験は、提案したOVCモデルが最先端のMTモデルより優れていることを示した。
論文 参考訳(メタデータ) (2020-12-18T11:10:00Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。