論文の概要: Prompt Triage: Structured Optimization Enhances Vision-Language Model Performance on Medical Imaging Benchmarks
- arxiv url: http://arxiv.org/abs/2511.11898v1
- Date: Fri, 14 Nov 2025 22:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.376945
- Title: Prompt Triage: Structured Optimization Enhances Vision-Language Model Performance on Medical Imaging Benchmarks
- Title(参考訳): Prompt Triage: 構造化最適化は、医用画像ベンチマークにおけるビジョンランゲージモデルの性能を高める
- Authors: Arnav Singhvi, Vasiliki Bikia, Asad Aali, Akshay Chaudhari, Roxana Daneshjou,
- Abstract要約: ヴィジュアル言語基礎モデル(VLM)は様々なイメージングタスクを約束するが、しばしば医療ベンチマークでは性能が劣る。
我々は、医療ビジョン言語システムにおける構造化された自動プロンプト最適化のための宣言的自己改善Pythonフレームワークに適応する。
我々は,放射線学,消化器学,皮膚学にまたがる5つの医療画像処理のためのプロンプトパイプラインを実装し,4つのプロンプト最適化手法を用いて10個のオープンソースVLMを評価した。
- 参考スコア(独自算出の注目度): 5.200534363670116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language foundation models (VLMs) show promise for diverse imaging tasks but often underperform on medical benchmarks. Prior efforts to improve performance include model finetuning, which requires large domain-specific datasets and significant compute, or manual prompt engineering, which is hard to generalize and often inaccessible to medical institutions seeking to deploy these tools. These challenges motivate interest in approaches that draw on a model's embedded knowledge while abstracting away dependence on human-designed prompts to enable scalable, weight-agnostic performance improvements. To explore this, we adapt the Declarative Self-improving Python (DSPy) framework for structured automated prompt optimization in medical vision-language systems through a comprehensive, formal evaluation. We implement prompting pipelines for five medical imaging tasks across radiology, gastroenterology, and dermatology, evaluating 10 open-source VLMs with four prompt optimization techniques. Optimized pipelines achieved a median relative improvement of 53% over zero-shot prompting baselines, with the largest gains ranging from 300% to 3,400% on tasks where zero-shot performance is low. These results highlight the substantial potential of applying automated prompt optimization to medical AI systems, demonstrating significant gains for vision-based applications requiring accurate clinical image interpretation. By reducing dependence on prompt design to elicit intended outputs, these techniques allow clinicians to focus on patient care and clinical decision-making. Furthermore, our experiments offer scalability and preserve data privacy, demonstrating performance improvement on open-source VLMs. We publicly release our evaluation pipelines to support reproducible research on specialized medical tasks, available at https://github.com/DaneshjouLab/prompt-triage-lab.
- Abstract(参考訳): ヴィジュアル言語基礎モデル(VLM)は様々なイメージングタスクを約束するが、しばしば医療ベンチマークでは性能が劣る。
それまでのパフォーマンス向上には、大規模なドメイン固有のデータセットと重要な計算を必要とするモデル微調整、あるいは手動のプロンプトエンジニアリングなどが含まれていた。
これらの課題は、スケーラブルで重量に依存しないパフォーマンス改善を実現するために、人間の設計したプロンプトへの依存を抽象化しながら、モデルの組み込み知識を引き出すアプローチへの関心を動機付けます。
そこで我々は,医療用視覚言語システムにおける自動即時最適化のための宣言型自己改善Python(DSPy)フレームワークを,包括的,形式的評価により適用した。
我々は,放射線学,消化器学,皮膚学にまたがる5つの医用画像タスクのためのプロンプトパイプラインを実装し,4つのプロンプト最適化手法を用いて10個のオープンソースVLMを評価した。
最適化パイプラインは、ゼロショット性能が低いタスクにおいて300%から3400%の範囲で、ベースラインを誘導するゼロショットよりも53%の中央値の相対的な改善を達成した。
これらの結果は、医療用AIシステムに自動的なプロンプト最適化を適用する可能性を強調し、正確な臨床画像解釈を必要とする視覚ベースのアプリケーションにおいて、大きな進歩を示す。
意図したアウトプットを引き出すための素早い設計への依存を減らすことで、これらの技術は臨床医が患者のケアと臨床的意思決定に集中できるようにする。
さらに、我々の実験はスケーラビリティを提供し、データのプライバシを保護し、オープンソースのVLMの性能向上を実証する。
評価パイプラインを公開し、特殊医療タスクの再現可能な研究を支援する。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Prompt Mechanisms in Medical Imaging: A Comprehensive Survey [18.072753363565322]
深層学習は医療画像に変革をもたらす。
しかし、その臨床導入は、データの不足、分散シフト、堅牢なタスクの一般化の必要性といった課題によって、しばしば妨げられている。
深層学習モデルを導くための重要な戦略として,プロンプトベースの方法論が登場している。
論文 参考訳(メタデータ) (2025-06-28T03:06:25Z) - Efficient Medical VIE via Reinforcement Learning [10.713109515157475]
ビジュアル情報抽出(VIE)は、構造化されていない文書イメージを、レポート分析やオンラインコンサルティングといった医療応用に不可欠な構造化フォーマットのような構造化フォーマットに変換する。
従来の手法はOCRと言語モデルに依存し、エンドツーエンドのマルチモーダルモデルは直接生成を提供する。
我々は、100の注釈付きサンプルを使用してこれらの課題に対処するために、Reinforcement Learning with Verifiable Rewards(RLVR)フレームワークをベースとしています。
論文 参考訳(メタデータ) (2025-06-16T11:10:25Z) - RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints [0.0]
Reasoning-Aware Reinforcement Learning frameworkは、医療ビジョン言語モデルの推論能力を高める。
低ランク適応とカスタム報酬関数を用いた軽量ベースモデルQwen2-VL-2B-Instructを微調整する。
RARLは医用画像解析および臨床推論におけるVLM性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2025-06-07T00:26:23Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。