Fugu-MT 論文翻訳(概要): Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering

論文の概要: Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering

arxiv url: http://arxiv.org/abs/2410.21000v2
Date: Tue, 04 Feb 2025 22:19:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 18:38:29.116452
Title: Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering
Title（参考訳）: 医用視力検査におけるバイリニアアテンションベースフュージョンの有用性
Authors: Zhilin Zhang, Jie Wang, Ruiqi Zhu, Xiaoliang Gong,
Abstract要約: MedVQA (MedVQA) はコンピュータビジョンと自然言語処理の交わりに注目が集まっている。我々は,オリゴニティ損失,マルチヘッドアテンション,双線形アテンションネットワークを統合した新しい融合モデルOMniBANを導入し,高い計算効率とソリッドパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 3.983863335432589
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical Visual Question Answering (MedVQA) has attracted growing interest at the intersection of computer vision and natural language processing. By interpreting medical images and providing precise answers to relevant clinical inquiries, MedVQA has the potential to support diagnostic decision-making and reduce workload across various domains, particularly radiology. While recent approaches rely heavily on unified large pre-trained Visual-Language Models, research on more efficient fusion mechanisms remains relatively limited in this domain. In this paper, we introduce a novel fusion model, OMniBAN, that integrates Orthogonality loss, Multi-head attention, and a Bilinear Attention Network to achieve high computational efficiency alongside solid performance. We conduct comprehensive experiments and provide insights into how bilinear attention fusion can approximate the performance of larger fusion models like cross-modal Transformer. Our results demonstrate that OMniBAN outperforms traditional approaches on key MedVQA benchmarks while maintaining a lower computational cost. This balance between efficiency and accuracy suggests that OMniBAN could be a viable option for real-world medical image question answering, where computational resources are often constrained.
Abstract（参考訳）: MedVQA (MedVQA) はコンピュータビジョンと自然言語処理の交わりに注目が集まっている。医療画像の解釈と関連する臨床検査への正確な回答を提供することで、MedVQAは診断決定を支援し、様々な領域、特に放射線学における作業量を削減できる可能性がある。近年のアプローチは、大規模で訓練済みのVisual-Language Modelに大きく依存しているが、この領域では、より効率的な融合機構の研究は比較的限られている。本稿では,オルソゴニティ損失とマルチヘッドアテンションを統合した新しい融合モデルOMniBANと,ソリッドパフォーマンスとともに高い計算効率を実現するバイリニアアテンションネットワークを提案する。我々は、総合的な実験を行い、双方向の注意融合が、クロスモーダル変換器のような大きな融合モデルの性能を近似する方法についての洞察を提供する。この結果から,OMniBANは従来のMedVQAベンチマークよりも高い性能を示し,計算コストの低減を図っている。この効率性と精度のバランスは、OMniBANが現実の医療画像質問応答において有効な選択肢になり得ることを示唆している。

関連論文リスト

NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding [51.63264715941068]
textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
論文参考訳（メタデータ） (2025-08-06T05:44:01Z)
ClinicalFMamba: Advancing Clinical Assessment using Mamba-based Multimodal Neuroimaging Fusion [7.0879234284391455]
マルチモーダル医療画像融合は、診断精度と治療計画を高めるために、異なる画像モダリティからの相補的な情報を統合する。 CNNは局所的な特徴抽出に優れるが、グローバルなコンテキストを効果的にモデル化するのは難しい。変換器は2次計算の複雑さを犠牲にしてより優れた長距離モデリングを実現する。最近のステートスペースモデル(SSM)は有望な代替手段を提供する。我々は,新しいエンドツーエンドCNN-MambaハイブリッドアーキテクチャであるCityicFMambaを提案する。
論文参考訳（メタデータ） (2025-08-05T02:25:53Z)
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文参考訳（メタデータ） (2025-06-22T08:09:58Z)
EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion [0.0]
EVM-Fusionは、医療画像分類のための新しいアルゴリズムニューラルネットワークフュージョン(NAF)機構を備えた説明可能な視覚マンバアーキテクチャである。多様な9クラスの医療画像データセットの実験は、EVM-Fusionの強力な分類性能を示し、99.75%のテスト精度を達成した。
論文参考訳（メタデータ） (2025-05-23T00:41:57Z)
Multi-Granularity Vision Fastformer with Fusion Mechanism for Skin Lesion Segmentation [7.944123371140182]
本研究の目的は,計算コストと長期依存性モデリングのバランスを最適化することである。 We propose a lightweight U-shape network that using Vision Fastformer with Fusion Mechanism (VFFM-UNet)。
論文参考訳（メタデータ） (2025-04-04T01:27:43Z)
Multi-Omics Fusion with Soft Labeling for Enhanced Prediction of Distant Metastasis in Nasopharyngeal Carcinoma Patients after Radiotherapy [4.971538849792411]
オミクスデータの統合で直面する課題の1つは、予測不能の存在である。本研究の目的は,オミクスデータに固有の相違を緩和する融合手法を開発することである。
論文参考訳（メタデータ） (2025-02-12T05:26:59Z)
ICFNet: Integrated Cross-modal Fusion Network for Survival Prediction [24.328576712419814]
本稿では,スライド画像全体,ゲノム表現プロファイル,患者の人口統計,治療プロトコルを統合した総合的クロスモーダル・フュージョン・ネットワーク(ICFNet)を提案する。 ICFNetは、5つのパブリックTCGAデータセットで最先端のアルゴリズムより優れている。
論文参考訳（メタデータ） (2025-01-06T05:49:08Z)
Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion [13.029564509505676]
マルチモーダル・メディカル・イメージ・フュージョン(Multimodal Medical Image fusion)は、様々な画像モダリティからの相補的な情報を統一的な表現に結合する重要なタスクである。深層学習手法は融合性能が著しく向上しているが、既存のCNNベースの手法では、微細なマルチスケールとエッジの特徴を捉えるには不十分である。マルチスケール機能抽出のためのDilated Residual Attention Network Moduleを導入することで,これらの制約に対処する新しいCNNアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-11-18T18:11:53Z)
Random Token Fusion for Multi-View Medical Diagnosis [2.3458652461211935]
多視点医療データセットでは、ディープラーニングモデルは診断性能を改善するために、異なる画像の観点から情報を融合することが多い。既存のアプローチは過度に適合する傾向があり、ビュー固有の機能に大きく依存する。本研究では,マルチビュー医療用トランスを用いた画像解析技術を提案する。
論文参考訳（メタデータ） (2024-10-21T10:19:45Z)
Analyzing the Effect of $k$-Space Features in MRI Classification Models [0.0]
医用イメージングに適した説明可能なAI手法を開発した。我々は、画像領域と周波数領域の両方にわたるMRIスキャンを分析する畳み込みニューラルネットワーク(CNN)を採用している。このアプローチは、初期のトレーニング効率を高めるだけでなく、追加機能がモデル予測にどのように影響するかの理解を深めます。
論文参考訳（メタデータ） (2024-09-20T15:43:26Z)
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-28T15:01:23Z)
HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution [6.7341750484636975]
トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-05-08T12:14:34Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文参考訳（メタデータ） (2024-03-07T16:11:43Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Free Form Medical Visual Question Answering in Radiology [3.495246564946556]
医療用ビジュアル質問回答の研究は、2018年以来、勢いを増している。本研究は,放射線画像の効果的表現とマルチモーダル表現の連成学習について考察する。我々のモデルは、より複雑なアーキテクチャでトップ1の精度79.55%を実現し、現在の最先端モデルに匹敵する性能を示す。
論文参考訳（メタデータ） (2024-01-23T20:26:52Z)
XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文参考訳（メタデータ） (2023-12-29T14:28:04Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。 C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2023-10-09T02:31:36Z)
MedAugment: Universal Automatic Data Augmentation Plug-in for Medical Image Analysis [9.724228319915609]
データ拡張(DA)は、データ不足を軽減するためにコンピュータビジョンで広く活用されている。医学画像解析(MIA)におけるDAは、複数の課題に直面している。我々はMedAugmentと呼ばれる効率的かつ効果的な自動DA手法を提案する。
論文参考訳（メタデータ） (2023-06-30T08:22:48Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。 PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文参考訳（メタデータ） (2023-05-17T17:50:16Z)
Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文参考訳（メタデータ） (2023-01-19T03:42:36Z)
Fusion of medical imaging and electronic health records with attention and multi-head machanisms [4.433829714749366]
本稿では,画像特徴抽出過程における重要な領域の選択を支援するために,EHRデータを用いたマルチモーダルアテンションモジュールを提案する。また,マルチヘッドマクニズムをゲート型マルチモーダルユニット(GMU)に組み込むことにより,異なる部分空間における画像とEHR機能を並列に融合させることも提案する。脳内出血患者のGOS(Glasgow outcome scale)の予測とアルツハイマー病の分類実験により,提案手法はタスク関連領域に自動的に焦点を絞ることができることが示された。
論文参考訳（メタデータ） (2021-12-22T07:39:26Z)
Incremental Cross-view Mutual Distillation for Self-supervised Medical CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文参考訳（メタデータ） (2021-12-20T03:38:37Z)
Context-Aware Refinement Network Incorporating Structural Connectivity Prior for Brain Midline Delineation [50.868845400939314]
UNetによって生成された特徴ピラミッド表現を洗練・統合するための文脈対応改良ネットワーク(CAR-Net)を提案する。正中線における脳の構造的接続性を維持するため、我々は新しい接続性レギュラーロスを導入する。提案手法は, パラメータを少なくし, 4つの評価指標で3つの最先端手法より優れる。
論文参考訳（メタデータ） (2020-07-10T14:01:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。