論文の概要: MOTOR: Multimodal Optimal Transport via Grounded Retrieval in Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2506.22900v1
- Date: Sat, 28 Jun 2025 14:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.622859
- Title: MOTOR: Multimodal Optimal Transport via Grounded Retrieval in Medical Visual Question Answering
- Title(参考訳): MOTOR: 医用視覚質問応答における接地検索によるマルチモーダル最適輸送
- Authors: Mai A. Shaaban, Tausifa Jan Saleem, Vijay Ram Papineni, Mohammad Yaqub,
- Abstract要約: 医用視覚質問応答(MedVQA)は、画像に基づく質問に対する文脈的に豊かな回答を提供することによって、臨床的意思決定において重要な役割を担っている。
検索の強化された生成リスクは、無関係なコンテキストを検索し、視覚言語モデルの推論能力を低下させる。
そこで本稿では, 接地キャプションと最適輸送を利用した新しいマルチモーダル検索手法を提案する。
- 参考スコア(独自算出の注目度): 0.8812173669205372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical visual question answering (MedVQA) plays a vital role in clinical decision-making by providing contextually rich answers to image-based queries. Although vision-language models (VLMs) are widely used for this task, they often generate factually incorrect answers. Retrieval-augmented generation addresses this challenge by providing information from external sources, but risks retrieving irrelevant context, which can degrade the reasoning capabilities of VLMs. Re-ranking retrievals, as introduced in existing approaches, enhances retrieval relevance by focusing on query-text alignment. However, these approaches neglect the visual or multimodal context, which is particularly crucial for medical diagnosis. We propose MOTOR, a novel multimodal retrieval and re-ranking approach that leverages grounded captions and optimal transport. It captures the underlying relationships between the query and the retrieved context based on textual and visual information. Consequently, our approach identifies more clinically relevant contexts to augment the VLM input. Empirical analysis and human expert evaluation demonstrate that MOTOR achieves higher accuracy on MedVQA datasets, outperforming state-of-the-art methods by an average of 6.45%. Code is available at https://github.com/BioMedIA-MBZUAI/MOTOR.
- Abstract(参考訳): 医用視覚質問応答(MedVQA)は、画像に基づく質問に対する文脈的に豊かな回答を提供することによって、臨床的意思決定において重要な役割を担っている。
視覚言語モデル(VLM)は、このタスクに広く使われているが、実際には正しくない解を生成することが多い。
Retrieval-augmented Generationは、外部ソースから情報を提供することでこの問題に対処するが、VLMの推論能力を低下させる無関係なコンテキストを検索するリスクがある。
既存の手法で導入された検索は、クエリ・テキストのアライメントに焦点を合わせることにより、検索の関連性を高める。
しかし、これらのアプローチは、特に診断に欠かせない視覚的・マルチモーダル的文脈を無視している。
提案するMOTORは, 接地キャプションと最適輸送を利用する新しいマルチモーダル検索手法である。
テキスト情報と視覚情報に基づいて、クエリと検索したコンテキストの間の基盤となる関係をキャプチャする。
その結果,本手法はVLM入力を増強する上で,より臨床的に関連性のあるコンテキストを同定する。
実証分析と人間の専門家による評価により、MOTORはMedVQAデータセットの精度が高く、最先端の手法を平均6.45%上回っている。
コードはhttps://github.com/BioMedIA-MBzuAI/motoR.comで公開されている。
関連論文リスト
- GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Structure Causal Models and LLMs Integration in Medical Visual Question Answering [42.54219413108453]
MedVQAタスクのための因果推論フレームワークを提案する。
視覚的要素とテキスト的要素の相互作用を表す新しい因果グラフ構造を最初に導入する。
本手法は複雑な医療データに面した真の因果相関を実現する。
論文 参考訳(メタデータ) (2025-05-05T14:57:02Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。
外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。
本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。
次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-06T16:45:07Z) - Tool Calling: Enhancing Medication Consultation via Retrieval-Augmented Large Language Models [10.04914417538886]
大規模言語モデル(LLM)は、様々な言語タスクで顕著な成功を収めてきたが、幻覚や時間的ミスアライメントに悩まされている。
従来のtextitRetrieve-then-Read の代わりに,新しい textitDistill-Retrieve-Read フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-27T13:11:42Z) - Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering [24.43605359639671]
我々はMedQA-USMLEデータセットの修正版であるMedQA-OPENを提案する。
臨床シナリオを模倣する選択肢のないオープンエンドの医療質問と、臨床者が承認した理性的な回答を含んでいる。
思考の連鎖(CoT)推論(CLINICR)によって駆動されるプロンプトを実装し,漸進的推論の過程を反映する。
論文 参考訳(メタデータ) (2024-03-07T20:48:40Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。