論文の概要: MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2107.03216v1
- Date: Wed, 7 Jul 2021 13:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 14:02:12.164508
- Title: MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering
- Title(参考訳): MuVAM: 医用視覚質問応答のための多視点注意ベースモデル
- Authors: Haiwei Pan, Shuning He, Kejia Zhang, Bo Qu, Chunling Chen, and Kun Shi
- Abstract要約: 本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
- 参考スコア(独自算出の注目度): 2.413694065650786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (VQA) is a multi-modal challenging task
widely considered by research communities of the computer vision and natural
language processing. Since most current medical VQA models focus on visual
content, ignoring the importance of text, this paper proposes a multi-view
attention-based model(MuVAM) for medical visual question answering which
integrates the high-level semantics of medical images on the basis of text
description. Firstly, different methods are utilized to extract the features of
the image and the question for the two modalities of vision and text. Secondly,
this paper proposes a multi-view attention mechanism that include
Image-to-Question (I2Q) attention and Word-to-Text (W2T) attention. Multi-view
attention can correlate the question with image and word in order to better
analyze the question and get an accurate answer. Thirdly, a composite loss is
presented to predict the answer accurately after multi-modal feature fusion and
improve the similarity between visual and textual cross-modal features. It
consists of classification loss and image-question complementary (IQC) loss.
Finally, for data errors and missing labels in the VQA-RAD dataset, we
collaborate with medical experts to correct and complete this dataset and then
construct an enhanced dataset, VQA-RADPh. The experiments on these two datasets
show that the effectiveness of MuVAM surpasses the state-of-the-art method.
- Abstract(参考訳): 医用視覚質問応答 (VQA) は、コンピュータビジョンと自然言語処理の研究コミュニティによって広く検討されているマルチモーダル課題である。
医用VQAモデルの多くは、テキストの重要性を無視して視覚コンテンツに焦点を当てているため、本論文では、医用画像の高レベルの意味をテキスト記述に基づいて統合した、医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
まず、視覚とテキストの2つのモダリティについて、画像の特徴と疑問を抽出するために異なる手法を用いる。
次に,画像からクエストへの注意(I2Q)とワードからテキストへの注意(W2T)を含む多視点アテンション機構を提案する。
多視点の注意は、質問を画像と単語に関連付けることで、質問をよりよく分析し、正確な回答を得る。
第3に、多重モーダル特徴融合後の解答を正確に予測し、視覚的特徴とテキスト的特徴との類似性を改善する。
分類損失と画像検索補完(IQC)損失からなる。
最後に、VQA-RADデータセットにおけるデータエラーとラベルの欠如に対して、私たちは医療専門家と協力してデータセットの修正と完了を行い、拡張データセットであるVQA-RADPhを構築します。
これらの2つのデータセットの実験により、MuVAMの有効性が最先端の手法を超えていることが示されている。
関連論文リスト
- ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。
本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-01T14:21:19Z) - Interpretable Medical Image Visual Question Answering via Multi-Modal
Relationship Graph Learning [45.746882253686856]
医用視覚質問応答 (VQA) は、入力医療画像に関する臨床的に関係のある質問に答えることを目的としている。
まず,胸部X線画像を中心に,包括的で大規模な医療用VQAデータセットを収集した。
このデータセットに基づいて、3つの異なる関係グラフを構築することによって,新たなベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:46:16Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self-supervised vision-language pretraining for Medical visual question
answering [9.073820229958054]
そこで本稿では,M2I2 による事前学習に Masked 画像モデリング, Masked 言語モデリング, 画像テキストマッチング, 画像テキストアライメントを適用した自己教師付き手法を提案する。
提案手法は,3つの医療用VQAデータセットのすべてに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T13:31:56Z) - A Dual-Attention Learning Network with Word and Sentence Embedding for
Medical Visual Question Answering [2.0559497209595823]
医学的視覚的質問応答(MVQA)の研究は、コンピュータ支援診断の開発に寄与する。
既存のMVQA質問抽出方式は、主にテキスト中の医療情報を無視した単語情報に焦点を当てている。
本研究では,単語と文の埋め込み(WSDAN)を併用した二重注意学習ネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-01T08:32:40Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。