論文の概要: MedSPOT: A Workflow-Aware Sequential Grounding Benchmark for Clinical GUI
- arxiv url: http://arxiv.org/abs/2603.19993v1
- Date: Fri, 20 Mar 2026 14:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.183334
- Title: MedSPOT: A Workflow-Aware Sequential Grounding Benchmark for Clinical GUI
- Title(参考訳): MedSPOT: 臨床GUIのためのワークフロー対応シークエンシャルグラウンドベンチマーク
- Authors: Rozain Shakeel, Abdul Rahman Mohammad Ali, Muneeb Mushtaq, Tausifa Jan Saleem, Tajamul Ashraf,
- Abstract要約: MedSPOTは、ワークフローを意識した臨床GUI環境のためのシーケンシャルグラウンドベンチマークである。
ベンチマークは597の注釈付きで216のタスク駆動ビデオで構成されており、各タスクは2から3の相互依存的な接地ステップで構成されている。
また、エッジバイアス、小さなターゲットエラー、予測なし、ミスに近い、ミスなし、ツールバーの混乱など、包括的な障害分類も導入しています。
- 参考スコア(独自算出の注目度): 0.7552557021953206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid progress of Multimodal Large Language Models (MLLMs), their ability to perform reliable visual grounding in high-stakes clinical software environments remains underexplored. Existing GUI benchmarks largely focus on isolated, single-step grounding queries, overlooking the sequential, workflow-driven reasoning required in real-world medical interfaces, where tasks evolve across independent steps and dynamic interface states. We introduce MedSPOT, a workflow-aware sequential grounding benchmark for clinical GUI environments. Unlike prior benchmarks that treat grounding as a standalone prediction task, MedSPOT models procedural interaction as a sequence of structured spatial decisions. The benchmark comprises 216 task-driven videos with 597 annotated keyframes, in which each task consists of 2 to 3 interdependent grounding steps within realistic medical workflows. This design captures interface hierarchies, contextual dependencies, and fine-grained spatial precision under evolving conditions. To evaluate procedural robustness, we propose a strict sequential evaluation protocol that terminates task assessment upon the first incorrect grounding prediction, explicitly measuring error propagation in multi-step workflows. We further introduce a comprehensive failure taxonomy, including edge bias, small-target errors, no prediction, near miss, far miss, and toolbar confusion, to enable systematic diagnosis of model behavior in clinical GUI settings. By shifting evaluation from isolated grounding to workflow-aware sequential reasoning, MedSPOT establishes a realistic and safety-critical benchmark for assessing multimodal models in medical software environments. Code and data are available at: https://github.com/Tajamul21/MedSPOT.
- Abstract(参考訳): MLLM (Multimodal Large Language Models) の急速な進歩にもかかわらず、高精細な臨床ソフトウェア環境で信頼性の高い視覚的接地を行う能力はいまだに未定である。
既存のGUIベンチマークは、独立したステップと動的インターフェース状態の間でタスクが進化する現実世界の医療インターフェースで必要とされる、シーケンシャルでワークフロー駆動の推論を見越して、孤立した単一ステップのグラウンドクエリに重点を置いている。
MedSPOTは、ワークフローを意識した臨床GUI環境のためのシーケンシャルグラウンドベンチマークである。
グラウンディングを独立した予測タスクとして扱う以前のベンチマークとは異なり、MedSPOTは手続き的相互作用を構造化された空間決定のシーケンスとしてモデル化する。
ベンチマークは597の注釈付きキーフレームを備えた216のタスク駆動ビデオで構成されており、各タスクは現実的な医療ワークフローの中で2~3つの相互依存的な基礎ステップで構成されている。
この設計は、インターフェース階層、コンテキスト依存、および進化する条件下でのきめ細かい空間精度をキャプチャする。
手続き的ロバスト性を評価するために,複数ステップのワークフローにおけるエラーの伝播を明示的に計測し,第1の誤った接地予測に基づくタスクアセスメントを終了する厳密な逐次評価プロトコルを提案する。
さらに、臨床GUI設定におけるモデル行動の体系的診断を可能にするために、エッジバイアス、小さなターゲットエラー、予測なし、ほぼミス、遠いミス、ツールバーの混乱を含む総合的な障害分類を導入する。
MedSPOTは、分離されたグラウンドからワークフロー対応シーケンシャル推論へ評価をシフトすることで、医療ソフトウェア環境におけるマルチモーダルモデルを評価するための、現実的で安全クリティカルなベンチマークを確立する。
コードとデータは、https://github.com/Tajamul21/MedSPOT.comで入手できる。
関連論文リスト
- Data-Local Autonomous LLM-Guided Neural Architecture Search for Multiclass Multimodal Time-Series Classification [0.4925906256430175]
LLM誘導型ニューラルネットワークサーチ(NAS)は、この探索を自動化することができるが、ほとんどの場合、クラウドの実行や、公開できないデータ由来のアーティファクトへのアクセスを前提としている。
固定されたプロトコルで全てのトレーニングと評価をローカルに実行しながら、遠隔で候補パイプラインを処理できる新しいデータローカルLLM誘導探索フレームワークを提案する。
本フレームワークは,クラスごとの1-vs-restバイナリエキスパートによるマルチクラス・マルチモーダル学習,軽量融合,エキスパートアーキテクチャとモダリティ特化前処理に関する共同探索を対象とする。
論文 参考訳(メタデータ) (2026-03-16T21:46:05Z) - AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild [30.138230316314534]
本稿では,一方向の指示から双方向の意図のアライメントへ評価をシフトするために,指示明細の分類を取り入れた最初のベンチマークであるAmbiBenchを紹介する。
厳密なレビュープロトコルの下で,25のアプリケーションにまたがる240の生態学的に有効なタスクの厳密なデータセットを構築した。
また,MLLM-as-a-judgeマルチエージェントアーキテクチャを利用した自動フレームワークであるMUSEを開発した。
論文 参考訳(メタデータ) (2026-02-12T09:25:15Z) - SUNSET -- A Sensor-fUsioN based semantic SegmEnTation exemplar for ROS-based self-adaptation [2.8210523386413087]
アーキテクチャに基づく自己適応の厳密かつ反復的な評価を可能にするROS2ベースの例であるSUNSETを提案する。
SUNSETには、セグメンテーションパイプライン、トレーニングされたMLモデル、不確実性注入スクリプト、ベースラインコントローラ、ステップバイステップの統合と評価ドキュメントが含まれている。
論文 参考訳(メタデータ) (2026-01-20T08:40:57Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。