論文の概要: A Dual-Attention Learning Network with Word and Sentence Embedding for
Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2210.00220v1
- Date: Sat, 1 Oct 2022 08:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:27:02.229734
- Title: A Dual-Attention Learning Network with Word and Sentence Embedding for
Medical Visual Question Answering
- Title(参考訳): 医用視覚質問応答のための単語と文の埋め込みによるデュアルアテンション学習ネットワーク
- Authors: Xiaofei Huang, Hongfang Gong
- Abstract要約: 医学的視覚的質問応答(MVQA)の研究は、コンピュータ支援診断の開発に寄与する。
既存のMVQA質問抽出方式は、主にテキスト中の医療情報を無視した単語情報に焦点を当てている。
本研究では,単語と文の埋め込み(WSDAN)を併用した二重注意学習ネットワークを提案する。
- 参考スコア(独自算出の注目度): 2.0559497209595823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in medical visual question answering (MVQA) can contribute to the
development of computeraided diagnosis. MVQA is a task that aims to predict
accurate and convincing answers based on given medical images and associated
natural language questions. This task requires extracting medical
knowledge-rich feature content and making fine-grained understandings of them.
Therefore, constructing an effective feature extraction and understanding
scheme are keys to modeling. Existing MVQA question extraction schemes mainly
focus on word information, ignoring medical information in the text. Meanwhile,
some visual and textual feature understanding schemes cannot effectively
capture the correlation between regions and keywords for reasonable visual
reasoning. In this study, a dual-attention learning network with word and
sentence embedding (WSDAN) is proposed. We design a module, transformer with
sentence embedding (TSE), to extract a double embedding representation of
questions containing keywords and medical information. A dualattention learning
(DAL) module consisting of self-attention and guided attention is proposed to
model intensive intramodal and intermodal interactions. With multiple DAL
modules (DALs), learning visual and textual co-attention can increase the
granularity of understanding and improve visual reasoning. Experimental results
on the ImageCLEF 2019 VQA-MED (VQA-MED 2019) and VQA-RAD datasets demonstrate
that our proposed method outperforms previous state-of-the-art methods.
According to the ablation studies and Grad-CAM maps, WSDAN can extract rich
textual information and has strong visual reasoning ability.
- Abstract(参考訳): 医学的視覚的質問応答(MVQA)の研究は、コンピュータ診断の発展に寄与する。
MVQAは、与えられた医療画像と関連する自然言語の質問に基づいて、正確で説得力のある回答を予測することを目的としたタスクである。
このタスクでは、医療知識豊富な特徴コンテンツの抽出と、それらに関する詳細な理解が必要です。
したがって、効果的な特徴抽出と理解手法の構築がモデリングの鍵となる。
既存のMVQA質問抽出方式は、主にテキスト中の医療情報を無視した単語情報に焦点を当てている。
一方、視覚およびテキストの特徴理解スキームでは、合理的な視覚的推論のために、領域とキーワードの相関を効果的に捉えることはできない。
本研究では,word and sentence embedded (wsdan) を用いた二重学習ネットワークを提案する。
文埋め込み(TSE)を備えたモジュールトランスフォーマーを設計し,キーワードや医療情報を含む質問の二重埋め込み表現を抽出する。
集中的なモーダル内相互作用とモーダル間相互作用をモデル化するために、自己注意と誘導注意からなるデュアルアテンション学習(DAL)モジュールを提案する。
複数のDALモジュール(DAL)により、視覚的およびテキスト的コアテンションの学習は、理解の粒度を高め、視覚的推論を改善する。
ImageCLEF 2019 VQA-MED(VQA-MED 2019)とVQA-RADデータセットの実験結果は、提案手法が従来の最先端手法よりも優れていることを示す。
アブレーション研究とGrad-CAMマップによると、WSDANは豊富なテキスト情報を抽出することができ、視覚的推論能力が強い。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Object Attribute Matters in Visual Question Answering [15.705504296316576]
本稿では,オブジェクト属性の活用の観点から,新しいVQAアプローチを提案する。
属性融合モジュールはマルチモーダルグラフニューラルネットワークを構築し、メッセージパッシングを通じて属性と視覚的特徴を融合する。
オブジェクトレベルの視覚言語アライメントの改善により、マルチモーダルシーンの理解が容易になり、モデルの堅牢性が改善される。
論文 参考訳(メタデータ) (2023-12-20T12:46:30Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - VQA with Cascade of Self- and Co-Attention Blocks [3.0013352260516744]
本研究の目的は、視覚的・テキスト的モダリティの密接な相互作用を通じて、改良されたマルチモーダル表現を学習することである。
提案モデルは,画像とテキストに自己注意と共同注意の両方を含む注意ブロックを有する。
論文 参考訳(メタデータ) (2023-02-28T17:20:40Z) - Self-supervised vision-language pretraining for Medical visual question
answering [9.073820229958054]
そこで本稿では,M2I2 による事前学習に Masked 画像モデリング, Masked 言語モデリング, 画像テキストマッチング, 画像テキストアライメントを適用した自己教師付き手法を提案する。
提案手法は,3つの医療用VQAデータセットのすべてに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T13:31:56Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。