論文の概要: A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues
- arxiv url: http://arxiv.org/abs/2305.04530v1
- Date: Mon, 8 May 2023 08:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:06:52.217025
- Title: A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues
- Title(参考訳): 文章と視覚手がかりの条件付き推論のためのマルチモーダルコンテキスト推論手法
- Authors: Yunxin Li, Baotian Hu, Xinyu Chen, Yuxin Ding, Lin Ma, and Min Zhang
- Abstract要約: 共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 23.743431157431893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional inference on joint textual and visual clues is a multi-modal
reasoning task that textual clues provide prior permutation or external
knowledge, which are complementary with visual content and pivotal to deducing
the correct option. Previous methods utilizing pretrained vision-language
models (VLMs) have achieved impressive performances, yet they show a lack of
multimodal context reasoning capability, especially for text-modal information.
To address this issue, we propose a Multi-modal Context Reasoning approach,
named ModCR. Compared to VLMs performing reasoning via cross modal semantic
alignment, it regards the given textual abstract semantic and objective image
information as the pre-context information and embeds them into the language
model to perform context reasoning. Different from recent vision-aided language
models used in natural language processing, ModCR incorporates the multi-view
semantic alignment information between language and vision by introducing the
learnable alignment prefix between image and text in the pretrained language
model. This makes the language model well-suitable for such multi-modal
reasoning scenario on joint textual and visual clues. We conduct extensive
experiments on two corresponding data sets and experimental results show
significantly improved performance (exact gain by 4.8% on PMR test set)
compared to previous strong baselines. Code Link:
\url{https://github.com/YunxinLi/Multimodal-Context-Reasoning}.
- Abstract(参考訳): 共同文と視覚的手がかりに関する条件推論は、テキストの手がかりが事前の置換や外部知識を提供するマルチモーダル推論タスクであり、視覚内容と相補的であり、正しい選択肢を導出するのに重要なものである。
事前学習された視覚言語モデル(VLM)を用いた従来の手法は印象的な性能を発揮するが、特にテキスト・モーダル情報において、マルチモーダルな文脈推論能力の欠如が示されている。
この問題に対処するため,ModCRというマルチモーダルコンテキスト推論手法を提案する。
クロスモーダルセマンティクスアライメントによる推論を行うvlmsと比較して、与えられたテキストの抽象的意味と客観的な画像情報を事前コンテキスト情報として捉え、それらを言語モデルに組み込んでコンテキスト推論を行う。
自然言語処理で使われる最近の視覚支援言語モデルとは異なり、modcrは事前学習された言語モデルに画像とテキストの学習可能なアライメントプレフィックスを導入することにより、言語と視覚の間の多視点意味的アライメント情報を取り込んでいる。
これにより、言語モデルは、ジョイントテキストと視覚的手がかりに関するマルチモーダル推論シナリオに適している。
2つの対応するデータセットについて広範な実験を行い,実験結果から,従来の強力なベースラインと比較して有意に性能が向上した(pmrテストセットでは4.8%向上)。
コードリンク: \url{https://github.com/YunxinLi/Multimodal-Context-Reasoning}
関連論文リスト
- Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - CISum: Learning Cross-modality Interaction to Enhance Multimodal
Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。
視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。
そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2023-02-20T11:57:23Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - A First Look: Towards Explainable TextVQA Models via Visual and Textual
Explanations [3.7638008383533856]
MTXNetは、エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャで、マルチモーダルな説明を生成する。
マルチモーダルな説明によるトレーニングは、CIDErスコアで最大7%、IoUでは2%を超えることが示されています。
また,生成したマルチモーダル説明を利用した実世界の電子商取引アプリケーションについても述べる。
論文 参考訳(メタデータ) (2021-04-29T00:36:17Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。