論文の概要: Detecting Concrete Visual Tokens for Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2403.03075v1
- Date: Tue, 5 Mar 2024 16:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:21:21.035367
- Title: Detecting Concrete Visual Tokens for Multimodal Machine Translation
- Title(参考訳): マルチモーダル機械翻訳のためのコンクリートヴィジュアルトークンの検出
- Authors: Braeden Bowen, Vipin Vijayan, Scott Grigsby, Timothy Anderson, and
Jeremy Gwinnup
- Abstract要約: 本稿では,情報文から視覚的かつ文脈的に関連のあるトークンを検出するための新しい手法を提案する。
また、検出されたトークンを最短の$n$トークン、最長の$n$トークン、そしてすべての検出された具体的なトークンを含む、検出されたトークンを選択する新しい方法を紹介します。
我々は、GRAM MMTアーキテクチャを用いて、マスク付き文によるソース画像の合成照合されたマルチモーダルデータセットに対してモデルを訓練する。
- 参考スコア(独自算出の注目度): 1.6192978014459543
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The challenge of visual grounding and masking in multimodal machine
translation (MMT) systems has encouraged varying approaches to the detection
and selection of visually-grounded text tokens for masking. We introduce new
methods for detection of visually and contextually relevant (concrete) tokens
from source sentences, including detection with natural language processing
(NLP), detection with object detection, and a joint detection-verification
technique. We also introduce new methods for selection of detected tokens,
including shortest $n$ tokens, longest $n$ tokens, and all detected concrete
tokens. We utilize the GRAM MMT architecture to train models against
synthetically collated multimodal datasets of source images with masked
sentences, showing performance improvements and improved usage of visual
context during translation tasks over the baseline model.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)システムにおける視覚的接地とマスキングの課題は、マスキングのための視覚的接地されたテキストトークンの検出と選択に対する様々なアプローチを奨励している。
本稿では,自然言語処理(nlp)による検出,物体検出による検出,共同検出・検証技術など,情報源文から視覚的かつ文脈的に関連する(コンクリート)トークンを検出する新しい手法を提案する。
また,検出されたトークンを最短の$n$トークン,最長の$n$トークン,検出されたすべての具体的トークンなど,新たに選択する手法も導入した。
我々は、GRAM MMTアーキテクチャを用いて、ベースラインモデル上での翻訳作業における視覚的コンテキストの使用性の向上と性能向上を図り、ソース画像の合成照合されたマルチモーダルデータセットに対してモデルを訓練する。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Beyond Image-Text Matching: Verb Understanding in Multimodal
Transformers Using Guided Masking [0.4543820534430524]
この研究はガイドマスキング(英語版)と呼ばれる代替の探索戦略を導入する。
提案手法はマスキングを用いて異なるモダリティを識別し、マスキングされた単語を高精度に予測するモデルの能力を評価する。
ViLBERT,LXMERT,UNITER,VisualBERTの誘導マスキングにより,正しい動詞を高精度に予測できることを示す。
論文 参考訳(メタデータ) (2024-01-29T21:22:23Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - MT: Multi-Perspective Feature Learning Network for Scene Text Detection [9.282254601960613]
軽量検出フレームワークは、高い検出精度を維持しつつ推論プロセスを高速化するように設計されている。
マスクを正確にセグメンテーションするための識別表現をより正確に学習するために,マルチパースペクティブな特徴モジュールを提案する。
MTの有効性を実世界の4つのシーンテキストデータセットで評価した。
論文 参考訳(メタデータ) (2021-05-12T06:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。