Fugu-MT 論文翻訳(概要): Increasing Visual Awareness in Multimodal Neural Machine Translation from an Information Theoretic Perspective

論文の概要: Increasing Visual Awareness in Multimodal Neural Machine Translation from an Information Theoretic Perspective

arxiv url: http://arxiv.org/abs/2210.08478v1
Date: Sun, 16 Oct 2022 08:11:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 16:20:30.171838
Title: Increasing Visual Awareness in Multimodal Neural Machine Translation from an Information Theoretic Perspective
Title（参考訳）: 情報理論からみたマルチモーダルニューラルマシン翻訳における視覚認知の増大
Authors: Baijun Ji, Tong Zhang, Yicheng Zou, Bojie Hu and Si Shen
Abstract要約: マルチモーダル機械翻訳(MMT)は、原文と対応する画像とを対応付けて翻訳品質を向上させることを目的としている。本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。
参考スコア（独自算出の注目度）: 14.100033405711685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal machine translation (MMT) aims to improve translation quality by equipping the source sentence with its corresponding image. Despite the promising performance, MMT models still suffer the problem of input degradation: models focus more on textual information while visual information is generally overlooked. In this paper, we endeavor to improve MMT performance by increasing visual awareness from an information theoretic perspective. In detail, we decompose the informative visual signals into two parts: source-specific information and target-specific information. We use mutual information to quantify them and propose two methods for objective optimization to better leverage visual signals. Experiments on two datasets demonstrate that our approach can effectively enhance the visual awareness of MMT model and achieve superior results against strong baselines.
Abstract（参考訳）: マルチモーダル機械翻訳(MMT)は、原文を対応する画像に合わせることで翻訳品質を向上させることを目的としている。有望な性能にもかかわらず、MTモデルは依然として入力劣化の問題に悩まされている。本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。本稿では,情報的視覚信号をソース固有情報とターゲット固有情報という2つの部分に分割する。相互情報を用いてそれらの定量化を行い,客観的最適化のための2つの手法を提案する。 2つのデータセットの実験により,MMTモデルの視覚的認識を効果的に向上し,強力なベースラインに対して優れた結果が得られることが示された。

関連論文リスト

Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。 MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文参考訳（メタデータ） (2025-03-17T12:31:23Z)
Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation [40.42326040668964]
本稿では,多モーダル大言語モデル (MLLM) に安定な拡散に基づくイマジネーションネットワークを導入し,各元文の画像を明示的に生成する。我々は、生成した画像と原文との整合性を確保するために、強化学習による人間のフィードバックを構築する。実験結果から,本モデルは既存のマルチモーダルMTとテキストのみのMTよりも優れていた。
論文参考訳（メタデータ） (2024-12-17T07:41:23Z)
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2024-09-09T17:44:00Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文参考訳（メタデータ） (2024-04-29T04:01:30Z)
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-06T02:02:34Z)
Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:57Z)
Generalization algorithm of multimodal pre-training model based on graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文参考訳（メタデータ） (2023-02-16T03:34:08Z)
Vision Matters When It Should: Sanity Checking Multimodal Machine Translation Models [25.920891392933058]
マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。近年の研究では、MMTモデルの性能は、関連画像が非関連画像やノイズに置き換えられた場合にのみ、限界的に影響を受けることが示されている。
論文参考訳（メタデータ） (2021-09-08T03:32:48Z)
Exploiting Multimodal Reinforcement Learning for Simultaneous Machine Translation [33.698254673743904]
a)高い翻訳品質と低レイテンシの間の良いトレードオフを学ぶための適応ポリシーと、(b)このプロセスをサポートするための視覚的情報です。強化学習を用いた同時機械翻訳のマルチモーダルアプローチを提案し、エージェントと環境の両方に視覚情報とテキスト情報を統合する戦略を提案します。
論文参考訳（メタデータ） (2021-02-22T22:26:22Z)
Efficient Object-Level Visual Context Modeling for Multimodal Machine Translation: Masking Irrelevant Objects Helps Grounding [25.590409802797538]
マルチモーダル機械翻訳のための視覚情報を効率的にキャプチャし探索するためのオブジェクトレベルのビジュアルコンテキストモデリングフレームワーク(OVC)を提案する。 OVCは、視覚的モダリティに無関係なオブジェクトをマスキングすることにより、望ましい視覚的オブジェクトに翻訳を根ざすようMTTを奨励します。 MMTデータセットの実験は、提案したOVCモデルが最先端のMTモデルより優れていることを示した。
論文参考訳（メタデータ） (2020-12-18T11:10:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。