論文の概要: SiMing-Bench: Evaluating Procedural Correctness from Continuous Interactions in Clinical Skill Videos
- arxiv url: http://arxiv.org/abs/2604.09037v1
- Date: Fri, 10 Apr 2026 06:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.736141
- Title: SiMing-Bench: Evaluating Procedural Correctness from Continuous Interactions in Clinical Skill Videos
- Title(参考訳): SiMing-Bench:クリニカルスキルビデオにおける連続的インタラクションによる手続き的正確性の評価
- Authors: Xiyang Huang, Jiawei Lin, Keying Wu, Jiaxin Huang, Kailai Yang, Renxiong Wei, Cheng zeng, Jiayi Xiang, Ziyan Kuang, Min Peng, Qianqian Xie, Sophia Ananiadou,
- Abstract要約: フル長のクリニカルスキルビデオからこの能力を評価するための最初のベンチマークであるSiMing-Benchを紹介する。
ワークフロー全体にわたって、インタラクション駆動の状態更新が手続き的正確性を維持するかどうかの、ルーリックなプロセスレベルの判断を対象とする。
- 参考スコア(独自算出の注目度): 33.33285554449996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video benchmarks for multimodal large language models (MLLMs) focus on event recognition, temporal ordering, and long-context recall, but overlook a harder capability required for expert procedural judgment: tracking how ongoing interactions update the procedural state and thereby determine the correctness of later actions. We introduce SiMing-Bench, the first benchmark for evaluating this capability from full-length clinical skill videos. It targets rubric-grounded process-level judgment of whether interaction-driven state updates preserve procedural correctness across an entire workflow. SiMing-Bench is instantiated with SiMing-Score, a physician-annotated dataset of real clinical skill examination videos spanning cardiopulmonary resuscitation, automated external defibrillator operation, and bag-mask ventilation, each paired with a standardized step-wise rubric and dual-expert labels. Across diverse open- and closed-source MLLMs, we observe consistently weak agreement with physician judgments. Moreover, weak performance on rubric-defined intermediate steps persists even when overall procedure-level correlation appears acceptable, suggesting that coarse global assessment substantially overestimates current models' procedural judgment ability. Additional analyses with binary step judgment and step-aligned clips indicate that the bottleneck is not merely fine-grained scoring or temporal localization, but modeling how continuous interactions update procedural state over time.
- Abstract(参考訳): MLLM(Multimodal large language model)の現在のビデオベンチマークは、イベント認識、時間的順序付け、長期コンテキストのリコールに重点を置いているが、専門家の手続き的判断に必要な困難な能力を見落としている。
フル長のクリニカルスキルビデオからこの能力を評価するための最初のベンチマークであるSiMing-Benchを紹介する。
ワークフロー全体にわたって、インタラクション駆動の状態更新が手続き的正確性を維持するかどうかの、ルーリックなプロセスレベルの判断を対象とする。
SiMing-Benchは、心肺蘇生、自動外的除細動器手術、バッグマスク換気を含む実際の臨床スキル試験ビデオの医師による注釈付きデータセットであるSiMing-Scoreでインスタンス化され、それぞれが標準化されたステップワイドルーリックとデュアルエキスパートラベルと組み合わせられる。
様々なオープンソースおよびクローズドソースMLLMにおいて、医師の判断と一貫して弱い一致を観察する。
さらに, プロシージャレベルの相関が許容される場合であっても, ルーブリック定義中間ステップの弱い性能は持続し, 粗い大域的評価が現行モデルの手続き的判断能力を大幅に過大評価することを示唆している。
2段階の判断とステップアライメントのクリップによるさらなる分析は、ボトルネックは単に微粒なスコアリングや時間的ローカライゼーションではなく、継続的な相互作用が手続き的状態を時間とともに更新する方法のモデル化であることを示している。
関連論文リスト
- SurgPhase: Time efficient pituitary tumor surgery phase recognition via an interactive web platform [4.1977714530157435]
下垂体腫瘍手術(PTS)ビデオにおける位相認識のための包括的枠組みを提案する。
提案手法はホールドアウトテストセットにおいて90%の精度を達成し,現在の最先端手法よりも優れていた。
この研究の中心的な貢献は、外科医が手術ビデオをアップロードするために設計された協調的なオンラインプラットフォームの統合である。
論文 参考訳(メタデータ) (2026-03-26T00:22:20Z) - ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels [39.33170904610862]
大規模言語モデル(LLM)は、病気の予防、臨床的意思決定、長期ケアにまたがる約束を示す健康管理にますます応用されている。
ClinConsensusは、臨床専門家がキュレートし、検証し、品質を制御した中国の医療ベンチマークである。
ClinConsensusは、予防と介入から長期フォローアップまで、ケアの全期間にわたる2500件のオープンエンドケースで構成されており、36の専門医、12の共通臨床タスクタイプ、そして徐々に複雑さのレベルが増大している。
論文 参考訳(メタデータ) (2026-03-02T17:17:18Z) - MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment [0.28332284137397873]
微粒化再生評価のための高分解能時間変換器MMTA(Multi-Membership Temporal Attention)を提案する。
MMTAはビデオとウェアラブルの両方のIMU入力を統合された単一ステージアーキテクチャでサポートする。
一貫してGlobal Attention Transformerを改良し、StrokeRehabのEdit Scoreを+1.3(ビデオ)+1.6(IMU)で強化し、50Saladsを+3.3で改善した。
論文 参考訳(メタデータ) (2026-03-01T02:57:03Z) - MedConsultBench: A Full-Cycle, Fine-Grained, Process-Aware Benchmark for Medical Consultation Agents [10.109613967215447]
MedConsultBenchは,オンラインコンサルテーションサイクルの完全な評価を目的とした総合的なフレームワークである。
本手法では,臨床情報取得をサブターンレベルで追跡するために,AIU(Atomic Information Units)を導入している。
オンラインコンサルティングに固有の不明瞭さと曖昧さに対処することで、このベンチマークは不確実性を認識しながら簡潔な調査を評価する。
論文 参考訳(メタデータ) (2026-01-19T02:18:10Z) - A Stitch in Time: Learning Procedural Workflow via Self-Supervised Plackett-Luce Ranking [11.039713164587456]
手続き的活動は、特定の時間的順序で実行される一連の行動として高度に構造化されている。
現在の自己教師型学習手法は、そのような活動を支える手続き的な性質を見落としていることが多い。
本稿では,映像フレームの時間的順序を強力な監視信号として活用する自己教師型フレームワークPL-Stitchを提案する。
論文 参考訳(メタデータ) (2025-11-21T21:59:22Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Bottom-Up Temporal Action Localization with Mutual Regularization [107.39785866001868]
TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。
学習手順を相互に規則化するための2つの規則化用語を導入する。
実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
論文 参考訳(メタデータ) (2020-02-18T03:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。