論文の概要: Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2410.21000v2
- Date: Tue, 04 Feb 2025 22:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:08.185251
- Title: Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering
- Title(参考訳): 医用視力検査におけるバイリニアアテンションベースフュージョンの有用性
- Authors: Zhilin Zhang, Jie Wang, Ruiqi Zhu, Xiaoliang Gong,
- Abstract要約: MedVQA (MedVQA) はコンピュータビジョンと自然言語処理の交わりに注目が集まっている。
我々は,オリゴニティ損失,マルチヘッドアテンション,双線形アテンションネットワークを統合した新しい融合モデルOMniBANを導入し,高い計算効率とソリッドパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 3.983863335432589
- License:
- Abstract: Medical Visual Question Answering (MedVQA) has attracted growing interest at the intersection of computer vision and natural language processing. By interpreting medical images and providing precise answers to relevant clinical inquiries, MedVQA has the potential to support diagnostic decision-making and reduce workload across various domains, particularly radiology. While recent approaches rely heavily on unified large pre-trained Visual-Language Models, research on more efficient fusion mechanisms remains relatively limited in this domain. In this paper, we introduce a novel fusion model, OMniBAN, that integrates Orthogonality loss, Multi-head attention, and a Bilinear Attention Network to achieve high computational efficiency alongside solid performance. We conduct comprehensive experiments and provide insights into how bilinear attention fusion can approximate the performance of larger fusion models like cross-modal Transformer. Our results demonstrate that OMniBAN outperforms traditional approaches on key MedVQA benchmarks while maintaining a lower computational cost. This balance between efficiency and accuracy suggests that OMniBAN could be a viable option for real-world medical image question answering, where computational resources are often constrained.
- Abstract(参考訳): MedVQA (MedVQA) はコンピュータビジョンと自然言語処理の交わりに注目が集まっている。
医療画像の解釈と関連する臨床検査への正確な回答を提供することで、MedVQAは診断決定を支援し、様々な領域、特に放射線学における作業量を削減できる可能性がある。
近年のアプローチは、大規模で訓練済みのVisual-Language Modelに大きく依存しているが、この領域では、より効率的な融合機構の研究は比較的限られている。
本稿では,オルソゴニティ損失とマルチヘッドアテンションを統合した新しい融合モデルOMniBANと,ソリッドパフォーマンスとともに高い計算効率を実現するバイリニアアテンションネットワークを提案する。
我々は、総合的な実験を行い、双方向の注意融合が、クロスモーダル変換器のような大きな融合モデルの性能を近似する方法についての洞察を提供する。
この結果から,OMniBANは従来のMedVQAベンチマークよりも高い性能を示し,計算コストの低減を図っている。
この効率性と精度のバランスは、OMniBANが現実の医療画像質問応答において有効な選択肢になり得ることを示唆している。
関連論文リスト
- Multi-Omics Fusion with Soft Labeling for Enhanced Prediction of Distant Metastasis in Nasopharyngeal Carcinoma Patients after Radiotherapy [4.971538849792411]
オミクスデータの統合で直面する課題の1つは、予測不能の存在である。
本研究の目的は,オミクスデータに固有の相違を緩和する融合手法を開発することである。
論文 参考訳(メタデータ) (2025-02-12T05:26:59Z) - ICFNet: Integrated Cross-modal Fusion Network for Survival Prediction [24.328576712419814]
本稿では,スライド画像全体,ゲノム表現プロファイル,患者の人口統計,治療プロトコルを統合した総合的クロスモーダル・フュージョン・ネットワーク(ICFNet)を提案する。
ICFNetは、5つのパブリックTCGAデータセットで最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2025-01-06T05:49:08Z) - Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion [13.029564509505676]
マルチモーダル・メディカル・イメージ・フュージョン(Multimodal Medical Image fusion)は、様々な画像モダリティからの相補的な情報を統一的な表現に結合する重要なタスクである。
深層学習手法は融合性能が著しく向上しているが、既存のCNNベースの手法では、微細なマルチスケールとエッジの特徴を捉えるには不十分である。
マルチスケール機能抽出のためのDilated Residual Attention Network Moduleを導入することで,これらの制約に対処する新しいCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-18T18:11:53Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution [6.7341750484636975]
トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。
本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。
実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-08T12:14:34Z) - MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文 参考訳(メタデータ) (2024-03-07T16:11:43Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Incremental Cross-view Mutual Distillation for Self-supervised Medical
CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。
臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。
提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文 参考訳(メタデータ) (2021-12-20T03:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。