論文の概要: Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2410.21000v3
- Date: Sun, 11 May 2025 14:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 14:13:12.483679
- Title: Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering
- Title(参考訳): 医用視力検査におけるバイリニアアテンションベースフュージョンの有用性
- Authors: Zhilin Zhang, Jie Wang, Zhanghao Qin, Ruiqi Zhu, Xiaoliang Gong,
- Abstract要約: MedVQA (MedVQA) は, 医学的画像理解と自然言語処理の交わる領域において, 臨床応用への関心が高まっている。
我々は,オルソゴニティ損失,マルチヘッドアテンション,双線形アテンションネットワークを統合した融合モデルOMniBANを導入し,高い計算効率とソリッドパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 3.7133600776119136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (MedVQA) has attracted growing interest at the intersection of medical image understanding and natural language processing for clinical applications. By interpreting medical images and providing precise answers to relevant clinical inquiries, MedVQA has the potential to support diagnostic decision-making and reduce workload across various fields like radiology. While recent approaches rely heavily on unified large pre-trained Visual-Language Models, research on more efficient fusion mechanisms remains relatively limited in this domain. In this paper, we introduce a fusion model, OMniBAN, that integrates Orthogonality loss, Multi-head attention, and a Bilinear Attention Network to achieve high computational efficiency as well as solid performance. We conduct comprehensive experiments and demonstrate how bilinear attention fusion can approximate the performance of larger fusion models like cross-modal Transformer. Our results show that OMniBAN requires fewer parameters (approximately 2/3 of Transformer-based Co-Attention) and substantially lower FLOPs (approximately 1/4), while achieving comparable overall performance and even slight improvements on closed-ended questions on two key MedVQA benchmarks. This balance between efficiency and accuracy suggests that OMniBAN could be a viable option for real-world medical image question answering, where computational resources are often constrained.
- Abstract(参考訳): MedVQA (MedVQA) は, 医学的画像理解と自然言語処理の交わる領域において, 臨床応用への関心が高まっている。
医療画像の解釈と関連する臨床検査への正確な回答を提供することで、MedVQAは診断決定を支援し、放射線学のような様々な分野における作業負荷を減らすことができる。
近年のアプローチは、大規模で訓練済みのVisual-Language Modelに大きく依存しているが、この領域では、より効率的な融合機構の研究は比較的限られている。
本稿では,オルソゴニティ損失,マルチヘッドアテンション,双線形アテンションネットワークを統合し,高い計算効率とソリッドパフォーマンスを実現する融合モデルOMniBANを提案する。
我々は、クロスモーダル変換器のような大型核融合モデルの性能を両線形の注意融合がどのように近似するかを包括的に実験し、実証する。
以上の結果から,OMniBANではパラメータの削減 (Transformerベースのコアテンションの約2/3) とFLOPの大幅な削減 (約1/4) が求められた。
この効率性と精度のバランスは、OMniBANが現実の医療画像質問応答において有効な選択肢になり得ることを示唆している。
関連論文リスト
- Multi-Omics Fusion with Soft Labeling for Enhanced Prediction of Distant Metastasis in Nasopharyngeal Carcinoma Patients after Radiotherapy [4.971538849792411]
オミクスデータの統合で直面する課題の1つは、予測不能の存在である。
本研究の目的は,オミクスデータに固有の相違を緩和する融合手法を開発することである。
論文 参考訳(メタデータ) (2025-02-12T05:26:59Z) - ICFNet: Integrated Cross-modal Fusion Network for Survival Prediction [24.328576712419814]
本稿では,スライド画像全体,ゲノム表現プロファイル,患者の人口統計,治療プロトコルを統合した総合的クロスモーダル・フュージョン・ネットワーク(ICFNet)を提案する。
ICFNetは、5つのパブリックTCGAデータセットで最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2025-01-06T05:49:08Z) - Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion [13.029564509505676]
マルチモーダル・メディカル・イメージ・フュージョン(Multimodal Medical Image fusion)は、様々な画像モダリティからの相補的な情報を統一的な表現に結合する重要なタスクである。
深層学習手法は融合性能が著しく向上しているが、既存のCNNベースの手法では、微細なマルチスケールとエッジの特徴を捉えるには不十分である。
マルチスケール機能抽出のためのDilated Residual Attention Network Moduleを導入することで,これらの制約に対処する新しいCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-18T18:11:53Z) - Random Token Fusion for Multi-View Medical Diagnosis [2.3458652461211935]
多視点医療データセットでは、ディープラーニングモデルは診断性能を改善するために、異なる画像の観点から情報を融合することが多い。
既存のアプローチは過度に適合する傾向があり、ビュー固有の機能に大きく依存する。
本研究では,マルチビュー医療用トランスを用いた画像解析技術を提案する。
論文 参考訳(メタデータ) (2024-10-21T10:19:45Z) - Analyzing the Effect of $k$-Space Features in MRI Classification Models [0.0]
医用イメージングに適した説明可能なAI手法を開発した。
我々は、画像領域と周波数領域の両方にわたるMRIスキャンを分析する畳み込みニューラルネットワーク(CNN)を採用している。
このアプローチは、初期のトレーニング効率を高めるだけでなく、追加機能がモデル予測にどのように影響するかの理解を深めます。
論文 参考訳(メタデータ) (2024-09-20T15:43:26Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution [6.7341750484636975]
トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。
本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。
実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-08T12:14:34Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文 参考訳(メタデータ) (2024-03-07T16:11:43Z) - Free Form Medical Visual Question Answering in Radiology [3.495246564946556]
医療用ビジュアル質問回答の研究は、2018年以来、勢いを増している。
本研究は,放射線画像の効果的表現とマルチモーダル表現の連成学習について考察する。
我々のモデルは、より複雑なアーキテクチャでトップ1の精度79.55%を実現し、現在の最先端モデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-23T20:26:52Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Fusion of medical imaging and electronic health records with attention
and multi-head machanisms [4.433829714749366]
本稿では,画像特徴抽出過程における重要な領域の選択を支援するために,EHRデータを用いたマルチモーダルアテンションモジュールを提案する。
また,マルチヘッドマクニズムをゲート型マルチモーダルユニット(GMU)に組み込むことにより,異なる部分空間における画像とEHR機能を並列に融合させることも提案する。
脳内出血患者のGOS(Glasgow outcome scale)の予測とアルツハイマー病の分類実験により,提案手法はタスク関連領域に自動的に焦点を絞ることができることが示された。
論文 参考訳(メタデータ) (2021-12-22T07:39:26Z) - Incremental Cross-view Mutual Distillation for Self-supervised Medical
CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。
臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。
提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文 参考訳(メタデータ) (2021-12-20T03:38:37Z) - Context-Aware Refinement Network Incorporating Structural Connectivity
Prior for Brain Midline Delineation [50.868845400939314]
UNetによって生成された特徴ピラミッド表現を洗練・統合するための文脈対応改良ネットワーク(CAR-Net)を提案する。
正中線における脳の構造的接続性を維持するため、我々は新しい接続性レギュラーロスを導入する。
提案手法は, パラメータを少なくし, 4つの評価指標で3つの最先端手法より優れる。
論文 参考訳(メタデータ) (2020-07-10T14:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。