論文の概要: Efficient Object-Level Visual Context Modeling for Multimodal Machine
Translation: Masking Irrelevant Objects Helps Grounding
- arxiv url: http://arxiv.org/abs/2101.05208v1
- Date: Fri, 18 Dec 2020 11:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:27:12.312945
- Title: Efficient Object-Level Visual Context Modeling for Multimodal Machine
Translation: Masking Irrelevant Objects Helps Grounding
- Title(参考訳): マルチモーダル機械翻訳のための効率的なオブジェクトレベルのビジュアルコンテキストモデリング:無関係オブジェクトのマスキングは接地に役立つ
- Authors: Dexin Wang and Deyi Xiong
- Abstract要約: マルチモーダル機械翻訳のための視覚情報を効率的にキャプチャし探索するためのオブジェクトレベルのビジュアルコンテキストモデリングフレームワーク(OVC)を提案する。
OVCは、視覚的モダリティに無関係なオブジェクトをマスキングすることにより、望ましい視覚的オブジェクトに翻訳を根ざすようMTTを奨励します。
MMTデータセットの実験は、提案したOVCモデルが最先端のMTモデルより優れていることを示した。
- 参考スコア(独自算出の注目度): 25.590409802797538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual context provides grounding information for multimodal machine
translation (MMT). However, previous MMT models and probing studies on visual
features suggest that visual information is less explored in MMT as it is often
redundant to textual information. In this paper, we propose an object-level
visual context modeling framework (OVC) to efficiently capture and explore
visual information for multimodal machine translation. With detected objects,
the proposed OVC encourages MMT to ground translation on desirable visual
objects by masking irrelevant objects in the visual modality. We equip the
proposed with an additional object-masking loss to achieve this goal. The
object-masking loss is estimated according to the similarity between masked
objects and the source texts so as to encourage masking source-irrelevant
objects. Additionally, in order to generate vision-consistent target words, we
further propose a vision-weighted translation loss for OVC. Experiments on MMT
datasets demonstrate that the proposed OVC model outperforms state-of-the-art
MMT models and analyses show that masking irrelevant objects helps grounding in
MMT.
- Abstract(参考訳): ビジュアルコンテキストはマルチモーダル機械翻訳(MMT)の基盤情報を提供する。
しかし、従来のMTモデルと視覚的特徴の探索研究は、視覚情報はテキスト情報に冗長であることが多いため、MTでは探索されないことを示唆している。
本稿では,マルチモーダル機械翻訳のための視覚情報を効率的に捉え,探索するためのオブジェクト指向ビジュアルコンテキストモデリングフレームワーク(ovc)を提案する。
検出対象により、提案したOVCは、視覚的モダリティにおいて無関係な物体をマスキングすることにより、MMTが望ましい視覚オブジェクトの翻訳を行うように促す。
我々は、この目標を達成するために、提案する追加のオブジェクトマスキング損失を装備する。
マスクされたオブジェクトとソーステキストとの類似性に応じて、オブジェクトマスキング損失を推定し、マスキングソース非関連オブジェクトを奨励する。
さらに、視覚に一貫性のあるターゲット語を生成するために、OVCに対して視覚強調翻訳損失を提案する。
MMTデータセットの実験では、提案したOVCモデルが最先端のMTTモデルより優れており、無関係な物体のマスキングがMTTの接地に役立つことが示されている。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction [6.798515070856465]
表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。
Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
論文 参考訳(メタデータ) (2023-11-08T16:59:26Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Increasing Visual Awareness in Multimodal Neural Machine Translation
from an Information Theoretic Perspective [14.100033405711685]
マルチモーダル機械翻訳(MMT)は、原文と対応する画像とを対応付けて翻訳品質を向上させることを目的としている。
本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。
論文 参考訳(メタデータ) (2022-10-16T08:11:44Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Vision Matters When It Should: Sanity Checking Multimodal Machine
Translation Models [25.920891392933058]
マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。
近年の研究では、MMTモデルの性能は、関連画像が非関連画像やノイズに置き換えられた場合にのみ、限界的に影響を受けることが示されている。
論文 参考訳(メタデータ) (2021-09-08T03:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。