論文の概要: Increasing Visual Awareness in Multimodal Neural Machine Translation
from an Information Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2210.08478v1
- Date: Sun, 16 Oct 2022 08:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:20:30.171838
- Title: Increasing Visual Awareness in Multimodal Neural Machine Translation
from an Information Theoretic Perspective
- Title(参考訳): 情報理論からみたマルチモーダルニューラルマシン翻訳における視覚認知の増大
- Authors: Baijun Ji, Tong Zhang, Yicheng Zou, Bojie Hu and Si Shen
- Abstract要約: マルチモーダル機械翻訳(MMT)は、原文と対応する画像とを対応付けて翻訳品質を向上させることを目的としている。
本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。
- 参考スコア(独自算出の注目度): 14.100033405711685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine translation (MMT) aims to improve translation quality by
equipping the source sentence with its corresponding image. Despite the
promising performance, MMT models still suffer the problem of input
degradation: models focus more on textual information while visual information
is generally overlooked. In this paper, we endeavor to improve MMT performance
by increasing visual awareness from an information theoretic perspective. In
detail, we decompose the informative visual signals into two parts:
source-specific information and target-specific information. We use mutual
information to quantify them and propose two methods for objective optimization
to better leverage visual signals. Experiments on two datasets demonstrate that
our approach can effectively enhance the visual awareness of MMT model and
achieve superior results against strong baselines.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)は、原文を対応する画像に合わせることで翻訳品質を向上させることを目的としている。
有望な性能にもかかわらず、MTモデルは依然として入力劣化の問題に悩まされている。
本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。
本稿では,情報的視覚信号をソース固有情報とターゲット固有情報という2つの部分に分割する。
相互情報を用いてそれらの定量化を行い,客観的最適化のための2つの手法を提案する。
2つのデータセットの実験により,MMTモデルの視覚的認識を効果的に向上し,強力なベースラインに対して優れた結果が得られることが示された。
関連論文リスト
- MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Generalization algorithm of multimodal pre-training model based on
graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文 参考訳(メタデータ) (2023-02-16T03:34:08Z) - Vision Matters When It Should: Sanity Checking Multimodal Machine
Translation Models [25.920891392933058]
マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。
近年の研究では、MMTモデルの性能は、関連画像が非関連画像やノイズに置き換えられた場合にのみ、限界的に影響を受けることが示されている。
論文 参考訳(メタデータ) (2021-09-08T03:32:48Z) - Exploiting Multimodal Reinforcement Learning for Simultaneous Machine
Translation [33.698254673743904]
a)高い翻訳品質と低レイテンシの間の良いトレードオフを学ぶための適応ポリシーと、(b)このプロセスをサポートするための視覚的情報です。
強化学習を用いた同時機械翻訳のマルチモーダルアプローチを提案し、エージェントと環境の両方に視覚情報とテキスト情報を統合する戦略を提案します。
論文 参考訳(メタデータ) (2021-02-22T22:26:22Z) - Efficient Object-Level Visual Context Modeling for Multimodal Machine
Translation: Masking Irrelevant Objects Helps Grounding [25.590409802797538]
マルチモーダル機械翻訳のための視覚情報を効率的にキャプチャし探索するためのオブジェクトレベルのビジュアルコンテキストモデリングフレームワーク(OVC)を提案する。
OVCは、視覚的モダリティに無関係なオブジェクトをマスキングすることにより、望ましい視覚的オブジェクトに翻訳を根ざすようMTTを奨励します。
MMTデータセットの実験は、提案したOVCモデルが最先端のMTモデルより優れていることを示した。
論文 参考訳(メタデータ) (2020-12-18T11:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。