論文の概要: MF2-MVQA: A Multi-stage Feature Fusion method for Medical Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2211.05991v1
- Date: Fri, 11 Nov 2022 04:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:30:46.406015
- Title: MF2-MVQA: A Multi-stage Feature Fusion method for Medical Visual
Question Answering
- Title(参考訳): MF2-MVQA: 医用視覚質問応答のための多段階特徴融合法
- Authors: Shanshan Song, Jiangyun Li, Jing Wang, Yuanxiu Cai, Wenkai Dong
- Abstract要約: 本稿では,多段階視覚特徴とテキスト・セマンティクスを段階的に融合する,シンプルだが強力なマルチステージ機能融合手法 MF2-MVQA を提案する。
MF2-MVQAは、VQA-Med 2019とVQA-RADデータセット上でのState-Of-The-Artパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 5.800639518707244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a key problem in the medical visual question answering task that how
to effectively realize the feature fusion of language and medical images with
limited datasets. In order to better utilize multi-scale information of medical
images, previous methods directly embed the multi-stage visual feature maps as
tokens of same size respectively and fuse them with text representation.
However, this will cause the confusion of visual features at different stages.
To this end, we propose a simple but powerful multi-stage feature fusion
method, MF2-MVQA, which stage-wise fuses multi-level visual features with
textual semantics. MF2-MVQA achieves the State-Of-The-Art performance on
VQA-Med 2019 and VQA-RAD dataset. The results of visualization also verify that
our model outperforms previous work.
- Abstract(参考訳): 限られたデータセットで言語と医用画像の特徴融合を効果的に実現するための医療視覚的質問応答タスクには重要な問題がある。
医療画像のマルチスケール情報を活用するため,従来の手法では,多段階視覚特徴マップを同一サイズのトークンとして直接埋め込み,テキスト表現と融合する。
しかし、これは異なる段階における視覚的特徴の混乱を引き起こす。
そこで本研究では,テキスト・セマンティクスによる多段階視覚特徴を段階的に融合する,シンプルだが強力なマルチステージ機能融合手法MF2-MVQAを提案する。
MF2-MVQAは、VQA-Med 2019とVQA-RADデータセット上でのState-Of-The-Artパフォーマンスを達成する。
ビジュアライゼーションの結果は、私たちのモデルが以前の作業より優れていることも確認します。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Image Fusion via Vision-Language Model [91.36809431547128]
VIsion-Language Model (FILM)による画像融合という新しい融合パラダイムを導入する。
FILMは画像からセマンティックプロンプトを生成し、それらをChatGPTに入力し、包括的なテキスト記述を行う。
これらの記述はテキスト領域内で融合され、視覚情報融合を導く。
FILMは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて有望な結果を示している。
論文 参考訳(メタデータ) (2024-02-03T18:36:39Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Self-supervised vision-language pretraining for Medical visual question
answering [9.073820229958054]
そこで本稿では,M2I2 による事前学習に Masked 画像モデリング, Masked 言語モデリング, 画像テキストマッチング, 画像テキストアライメントを適用した自己教師付き手法を提案する。
提案手法は,3つの医療用VQAデータセットのすべてに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T13:31:56Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z) - MMBERT: Multimodal BERT Pretraining for Improved Medical VQA [23.78515287446131]
NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習に着想を得たソリューションを提案する。
Masked Language Modeling を用いて、よりリッチな医療画像とテキスト意味表現を学習する手法です。
このソリューションは、放射線画像用の2つのVQAデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-03T13:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。