論文の概要: Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2410.21000v1
- Date: Mon, 28 Oct 2024 13:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:41.305079
- Title: Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering
- Title(参考訳): 医用視力検査におけるバイリニアアテンションベースフュージョンの有用性
- Authors: Zhilin Zhang, Jie Wang, Ruiqi Zhu, Xiaoliang Gong,
- Abstract要約: コンピュータビジョンと自然言語処理の交差点では,MedVQA (MedVQA) が注目されている。
本稿では,オリゴニティ損失,マルチヘッドアテンション,双線形アテンションネットワーク(OMniBAN)を統合した新しい融合モデルを提案する。
- 参考スコア(独自算出の注目度): 3.983863335432589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (MedVQA) has gained increasing attention at the intersection of computer vision and natural language processing. Its capability to interpret radiological images and deliver precise answers to clinical inquiries positions MedVQA as a valuable tool for supporting diagnostic decision-making for physicians and alleviating the workload on radiologists. While recent approaches focus on using unified pre-trained large models for multi-modal fusion like cross-modal Transformers, research on more efficient fusion methods remains relatively scarce within this discipline. In this paper, we introduce a novel fusion model that integrates Orthogonality loss, Multi-head attention and Bilinear Attention Network (OMniBAN) to achieve high computational efficiency and strong performance without the need for pre-training. We conduct comprehensive experiments and clarify aspects of how to enhance bilinear attention fusion to achieve performance comparable to that of large models. Experimental results show that OMniBAN outperforms traditional models on key MedVQA benchmarks while maintaining a lower computational cost, which indicates its potential for efficient clinical application in radiology and pathology image question answering.
- Abstract(参考訳): コンピュータビジョンと自然言語処理の交差点では,MedVQA (MedVQA) が注目されている。
放射線画像の解釈と臨床検査に対する正確な回答を提供する能力は、MedVQAを医師の診断決定を支援し、放射線医の作業負荷を軽減する貴重なツールとして位置づけている。
近年のアプローチでは、クロスモーダルトランスフォーマーのようなマルチモーダル融合のための統一された事前訓練された大型モデルの使用に焦点が当てられているが、より効率的な融合法の研究はこの分野において比較的少ないままである。
本稿では,オリゴニティ損失,マルチヘッドアテンション,双線形アテンションネットワーク(OMniBAN)を統合した新しい融合モデルを提案する。
我々は,大規模モデルに匹敵する性能を達成するために,双線形アテンション融合をいかに拡張するかについて,包括的実験を行い,その側面を明確にする。
実験の結果, OMniBANは, 従来のMedVQAベンチマークよりも計算コストが低く, 放射線学および病理画像質問応答における効率的な臨床応用の可能性を示している。
関連論文リスト
- Multi-Omics Fusion with Soft Labeling for Enhanced Prediction of Distant Metastasis in Nasopharyngeal Carcinoma Patients after Radiotherapy [4.971538849792411]
オミクスデータの統合で直面する課題の1つは、予測不能の存在である。
本研究の目的は,オミクスデータに固有の相違を緩和する融合手法を開発することである。
論文 参考訳(メタデータ) (2025-02-12T05:26:59Z) - ICFNet: Integrated Cross-modal Fusion Network for Survival Prediction [24.328576712419814]
本稿では,スライド画像全体,ゲノム表現プロファイル,患者の人口統計,治療プロトコルを統合した総合的クロスモーダル・フュージョン・ネットワーク(ICFNet)を提案する。
ICFNetは、5つのパブリックTCGAデータセットで最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2025-01-06T05:49:08Z) - Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion [13.029564509505676]
マルチモーダル・メディカル・イメージ・フュージョン(Multimodal Medical Image fusion)は、様々な画像モダリティからの相補的な情報を統一的な表現に結合する重要なタスクである。
深層学習手法は融合性能が著しく向上しているが、既存のCNNベースの手法では、微細なマルチスケールとエッジの特徴を捉えるには不十分である。
マルチスケール機能抽出のためのDilated Residual Attention Network Moduleを導入することで,これらの制約に対処する新しいCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-18T18:11:53Z) - Random Token Fusion for Multi-View Medical Diagnosis [2.3458652461211935]
多視点医療データセットでは、ディープラーニングモデルは診断性能を改善するために、異なる画像の観点から情報を融合することが多い。
既存のアプローチは過度に適合する傾向があり、ビュー固有の機能に大きく依存する。
本研究では,マルチビュー医療用トランスを用いた画像解析技術を提案する。
論文 参考訳(メタデータ) (2024-10-21T10:19:45Z) - Analyzing the Effect of $k$-Space Features in MRI Classification Models [0.0]
医用イメージングに適した説明可能なAI手法を開発した。
我々は、画像領域と周波数領域の両方にわたるMRIスキャンを分析する畳み込みニューラルネットワーク(CNN)を採用している。
このアプローチは、初期のトレーニング効率を高めるだけでなく、追加機能がモデル予測にどのように影響するかの理解を深めます。
論文 参考訳(メタデータ) (2024-09-20T15:43:26Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution [6.7341750484636975]
トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。
本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。
実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-08T12:14:34Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文 参考訳(メタデータ) (2024-03-07T16:11:43Z) - Free Form Medical Visual Question Answering in Radiology [3.495246564946556]
医療用ビジュアル質問回答の研究は、2018年以来、勢いを増している。
本研究は,放射線画像の効果的表現とマルチモーダル表現の連成学習について考察する。
我々のモデルは、より複雑なアーキテクチャでトップ1の精度79.55%を実現し、現在の最先端モデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-23T20:26:52Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Fusion of medical imaging and electronic health records with attention
and multi-head machanisms [4.433829714749366]
本稿では,画像特徴抽出過程における重要な領域の選択を支援するために,EHRデータを用いたマルチモーダルアテンションモジュールを提案する。
また,マルチヘッドマクニズムをゲート型マルチモーダルユニット(GMU)に組み込むことにより,異なる部分空間における画像とEHR機能を並列に融合させることも提案する。
脳内出血患者のGOS(Glasgow outcome scale)の予測とアルツハイマー病の分類実験により,提案手法はタスク関連領域に自動的に焦点を絞ることができることが示された。
論文 参考訳(メタデータ) (2021-12-22T07:39:26Z) - Incremental Cross-view Mutual Distillation for Self-supervised Medical
CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。
臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。
提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文 参考訳(メタデータ) (2021-12-20T03:38:37Z) - Context-Aware Refinement Network Incorporating Structural Connectivity
Prior for Brain Midline Delineation [50.868845400939314]
UNetによって生成された特徴ピラミッド表現を洗練・統合するための文脈対応改良ネットワーク(CAR-Net)を提案する。
正中線における脳の構造的接続性を維持するため、我々は新しい接続性レギュラーロスを導入する。
提案手法は, パラメータを少なくし, 4つの評価指標で3つの最先端手法より優れる。
論文 参考訳(メタデータ) (2020-07-10T14:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。