論文の概要: Improving Medical VQA through Trajectory-Aware Process Supervision
- arxiv url: http://arxiv.org/abs/2605.04064v1
- Date: Fri, 10 Apr 2026 21:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.555718
- Title: Improving Medical VQA through Trajectory-Aware Process Supervision
- Title(参考訳): トラジェクティブ・アウェア・プロセス・スーパービジョンによる医療用VQAの改善
- Authors: Halil Ibrahim Gulluk, Olivier Gevaert,
- Abstract要約: 推論能力は信頼性のある医用視覚質問応答(VQA)に不可欠である
我々は,オープンソースビジョン言語モデルを用いたCOMCTSアルゴリズムを用いて,6つの医用VQAベンチマークの推論軌跡を生成する。
提案手法は, 生起過程と生起過程の類似度を計測するトラジェクトリ・アウェア・報酬を導入する。
- 参考スコア(独自算出の注目度): 2.7579377082303673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning capabilities are crucial for reliable medical visual question answering (VQA); however, existing datasets rarely include reasoning explanations. We address this by generating reasoning trajectories for six medical VQA benchmarks using the COMCTS algorithm with open-source vision-language models, with an LLM serving as the verification judge. Building on these generated datasets, we propose a two-stage training framework: supervised fine-tuning followed by Group Relative Policy Optimization (GRPO) with a novel process-based reward. While standard approaches rely solely on exact-match rewards for final answers, we introduce a trajectory-aware reward that measures the similarity between generated and ground-truth reasoning processes. Specifically, we embed reasoning steps using sentence transformers and compute the Dynamic Time Warping (DTW) distance between the resulting vector sequences. Experiments across six benchmarks demonstrate that combining the DTW-based process reward with exact-match reward consistently outperforms SFT-only training, raising mean accuracy from 0.598 to 0.689, mean BERTScore from 0.845 to 0.881, and mean ROUGE-L from 0.665 to 0.748. Our results highlight the importance of process supervision in training reasoning-capable medical VLMs. We make our code and generated reasoning datasets publicly available at https://anonymous.4open.science/r/MICCAI-R1-MED-VQA-code-B14B/
- Abstract(参考訳): 推論機能は、信頼性のある医用視覚的質問応答(VQA)には不可欠であるが、既存のデータセットには推論の説明がほとんど含まれていない。
我々は、COMCTSアルゴリズムとオープンソースのビジョン言語モデルを用いて、6つの医用VQAベンチマークの推論軌道を生成することでこの問題に対処する。
これら生成されたデータセットに基づいて、教師付き微調整とグループ相対政策最適化(GRPO)の2段階のトレーニングフレームワークを提案する。
標準アプローチは最終回答の正確なマッチング報酬にのみ依存するが、我々は、生成された論理的推論プロセスと基底的論理的推論プロセスの類似性を測定する軌道対応報酬を導入する。
具体的には、文変換器を用いて推論ステップを埋め込んで、結果のベクトル列間の動的時間ワープ(DTW)距離を計算する。
6つのベンチマークでの実験では、DTWベースのプロセス報酬と正確なマッチ報酬の組み合わせは、SFTのみのトレーニングを一貫して上回り、平均精度を0.598から0.689、平均BERTScoreを0.845から0.881、平均ROUGE-Lを0.665から0.748に引き上げている。
本研究は,医療用VLMのトレーニングにおけるプロセス管理の重要性を強調した。
コードと生成された推論データセットをhttps://anonymous.4open.science/r/MICCAI-R1-MED-VQA-code-B14B/で公開しています。
関連論文リスト
- Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents [3.1626173943755975]
VLM(Vision-Language Models)は、しばしば誤読値、幻覚的詳細、チャート内の重なり合う要素を混乱させる。
現在のアプローチはピクセル解釈のみに依存し、Pixel-Only Bottleneckを作成する。
Introspective and Interactive Visual Grounding (IVG)は、スペック・グラウンド・イントロスペクションとビュー・グラウンド・インタラクションを組み合わせたフレームワークである。
論文 参考訳(メタデータ) (2026-04-22T22:47:23Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning [39.1720897614261]
密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。
筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。
ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
論文 参考訳(メタデータ) (2025-12-02T21:30:47Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。