論文の概要: GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.17939v1
- Date: Sun, 22 Jun 2025 08:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.659234
- Title: GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
- Title(参考訳): GEMeX-ThinkVG:強化学習による医用VQAの視覚的接地思考に向けて
- Authors: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu,
- Abstract要約: 医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
- 参考スコア(独自算出の注目度): 50.94508930739623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical visual question answering aims to support clinical decision-making by enabling models to answer natural language questions based on medical images. While recent advances in multi-modal learning have significantly improved performance, current methods still suffer from limited answer reliability and poor interpretability, impairing the ability of clinicians and patients to understand and trust model-generated answers. To address this, this work first proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer generation is decomposed into intermediate reasoning steps that explicitly ground relevant visual regions of the medical image, thereby providing fine-grained explainability. Furthermore, we introduce a novel verifiable reward mechanism for reinforcement learning to guide post-training, improving the alignment between the model's reasoning process and its final answer. Remarkably, our method achieves comparable performance using only one-eighth of the training data, demonstrating the efficiency and effectiveness of the proposal. The dataset is available at https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
- Abstract(参考訳): 医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
マルチモーダル学習の最近の進歩は、性能を著しく向上させたが、現在の手法は、答えの信頼性の制限と解釈可能性の低下に悩まされ、臨床医や患者がモデル生成の回答を理解し、信頼する能力が損なわれている。
そこで本研究では,まず,回答生成を医用画像の関連領域を明確に把握する中間的推論ステップに分解し,詳細な説明性を提供するThinkVG(ThinkVG)データセットを提案する。
さらに,強化学習のための新たな報奨機構を導入し,学習後の学習をガイドし,モデルの推論過程と最終的な回答との整合性を改善する。
また,本手法は,トレーニングデータの8分の1しか使用せず,提案手法の有効性と有効性を示す。
データセットはhttps://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVGで公開されている。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - CoMT: Chain-of-Medical-Thought Reduces Hallucination in Medical Report Generation [20.59298361626719]
医療報告生成における幻覚を緩和するためのチェーン・オブ・メディカル・シント・アプローチ(CoMT)を提案する。
CoMTは、診断手順を分解することで、人間の医師の認知過程を模倣しようとしている。
論文 参考訳(メタデータ) (2024-06-17T12:03:32Z) - MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale [19.94415334436024]
我々は、データ準備を効率化し、新しいベンチマークMedVQAデータセットを構築するための半自動アノテーションプロセスを開発した。
これらのデータセットは、マルチモーダルな大言語モデルと人間のアノテーションによって生成される中間的な医学的意思決定の合理性を提供する。
我々はまた、医学的意思決定の合理性を取り入れた軽量な事前学習生成モデルを微調整する新しいフレームワーク、MedThinkを設計する。
論文 参考訳(メタデータ) (2024-04-18T17:53:19Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Consistency-preserving Visual Question Answering in Medical Imaging [2.005299372367689]
VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。
本稿では,課題間の関係を学習プロセスに含める新しい損失関数とそれに対応する訓練手順を提案する。
実験の結果,本手法は最先端のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-27T13:38:50Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z) - A Question-Centric Model for Visual Question Answering in Medical
Imaging [3.619444603816032]
そこで本稿では,画像の問合せを質問文で行う視覚質問解答手法を提案する。
種々の医用・自然画像データセットを用いた実験により, 提案手法は, 画像特徴と疑問特徴を新しい方法で融合させることで, 従来の手法と同等あるいは高い精度を達成できることが示されている。
論文 参考訳(メタデータ) (2020-03-02T10:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。