論文の概要: FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues
- arxiv url: http://arxiv.org/abs/2403.20026v1
- Date: Fri, 29 Mar 2024 07:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:15:12.251790
- Title: FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues
- Title(参考訳): FSMR: テキストと視覚の融合によるマルチモーダル推論手法
- Authors: Shuang Li, Jiahua Wang, Lijie Wen,
- Abstract要約: Feature Swapping Multi-modal Reasoning (FSMR) モデルは、機能スワップによるマルチモーダル推論を強化するように設計されている。
FSMRにはマルチモーダル・クロスアテンション機構が組み込まれており、テキスト情報と視覚情報の共同モデリングを容易にする。
PMRデータセットの実験は、FSMRが最先端のベースラインモデルよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 20.587249765287183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal reasoning plays a vital role in bridging the gap between textual and visual information, enabling a deeper understanding of the context. This paper presents the Feature Swapping Multi-modal Reasoning (FSMR) model, designed to enhance multi-modal reasoning through feature swapping. FSMR leverages a pre-trained visual-language model as an encoder, accommodating both text and image inputs for effective feature representation from both modalities. It introduces a unique feature swapping module, enabling the exchange of features between identified objects in images and corresponding vocabulary words in text, thereby enhancing the model's comprehension of the interplay between images and text. To further bolster its multi-modal alignment capabilities, FSMR incorporates a multi-modal cross-attention mechanism, facilitating the joint modeling of textual and visual information. During training, we employ image-text matching and cross-entropy losses to ensure semantic consistency between visual and language elements. Extensive experiments on the PMR dataset demonstrate FSMR's superiority over state-of-the-art baseline models across various performance metrics.
- Abstract(参考訳): マルチモーダル推論は、テキスト情報と視覚情報のギャップを埋める上で重要な役割を担い、コンテキストのより深い理解を可能にする。
本稿では,機能スワッピングによるマルチモーダル推論の強化を目的としたFSMRモデルを提案する。
FSMRは、訓練済みの視覚言語モデルをエンコーダとして利用し、テキストと画像の両方の入力を調節して、両方のモダリティから効果的な特徴表現を行う。
ユニークな機能スワッピングモジュールを導入し、画像中の特定対象とテキスト中の対応する語彙語との間の特徴の交換を可能にし、画像とテキスト間の相互作用に関するモデルの理解を深める。
FSMRはマルチモーダルアライメント機能をさらに強化するため、多モーダル・クロスアテンション機構を導入し、テキスト情報と視覚情報の共同モデリングを容易にする。
トレーニング中、視覚的要素と言語要素のセマンティック一貫性を確保するために、画像テキストマッチングとクロスエントロピー損失を用いる。
PMRデータセットの大規模な実験は、FSMRが様々なパフォーマンス指標で最先端のベースラインモデルよりも優れていることを示している。
関連論文リスト
- MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - Few-Shot Relation Extraction with Hybrid Visual Evidence [3.154631846975021]
MFS-HVE(Multi-modal few-shot relation extract model)を提案する。
MFS-HVEは意味的特徴抽出器とマルチモーダル融合コンポーネントを含む。
2つの公開データセットで行った実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-03-01T18:20:11Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。