論文の概要: Sum-of-Checks: Structured Reasoning for Surgical Safety with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.22156v1
- Date: Fri, 24 Apr 2026 02:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.306461
- Title: Sum-of-Checks: Structured Reasoning for Surgical Safety with Large Vision-Language Models
- Title(参考訳): まとめ:大規模視線モデルを用いた外科的安全のための構造化推論
- Authors: Weiqiu You, Cassandra Goldberg, Amin Madani, Daniel A. Hashimoto, Eric Wong,
- Abstract要約: 安全基準の臨界ビューを専門家定義の推論チェックに分解するフレームワークであるSum-of-Checksを紹介する。
3つのフロンティアLVLMを用いてEndoscapes2023ベンチマークを評価し,ダイレクトプロンプト,チェーンオブ思考,サブクエクションの分解と比較した。
- 参考スコア(独自算出の注目度): 20.182365299103484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: Accurate assessment of the Critical View of Safety (CVS) during laparoscopic cholecystectomy is essential to prevent bile duct injury, a complication associated with significant morbidity and mortality. While large vision-language models (LVLMs) offer flexible reasoning, their predictions remain difficult to audit and unreliable on safety-critical surgical tasks. Methods: We introduce Sum-of-Checks, a framework that decomposes each CVS criterion into expert-defined reasoning checks reflecting clinically relevant visual evidence. Given a laparoscopic frame, an LVLM evaluates each check, producing a binary judgment and justification. Criterion-level scores are computed via fixed, weighted aggregation of check outcomes. We evaluate on the Endoscapes2023 benchmark using three frontier LVLMs, comparing against direct prompting, chain-of-thought, and sub-question decomposition, each with and without few-shot examples. Results: Sum-of-Checks improves average frame-level mean average precision by 12--14% relative to the best baseline across all three models and criteria. Analysis of individual checks reveals that LVLMs are reliable on observational checks (e.g., visibility, tool obstruction) but show substantial variability on decision-critical anatomical evidence. Conclusion: Structuring surgical reasoning into expert-aligned verification checks improves both accuracy and transparency of LVLM-based CVS assessment, demonstrating that explicitly separating evidence elicitation from decision-making is critical for reliable and auditable surgical AI systems. Code is available at https://github.com/BrachioLab/SumOfChecks.
- Abstract(参考訳): 目的:腹腔鏡下胆嚢摘出術におけるCVS(Critical View of Safety)の正確な評価は胆管損傷の予防に不可欠である。
大きな視覚言語モデル(LVLM)は柔軟な推論を提供するが、それらの予測は検査が困難であり、安全クリティカルな外科的タスクでは信頼できない。
方法: 臨床に関連のある視覚的証拠を反映した,各CVS基準を専門家定義推論チェックに分解するフレームワークであるSum-of-Checksを紹介する。
腹腔鏡フレームが与えられた後、LVLMは各チェックを評価し、二分判定と正当化を生成する。
基準レベルのスコアは、チェック結果の固定された重み付けによる集計によって計算される。
3つのフロンティアLVLMを用いてEndoscapes2023ベンチマークを評価し、直接的プロンプト、チェーン・オブ・クエスト、サブクエスト分解を比較した。
結果: Sum-of-Checksは平均フレームレベルの平均平均精度を3つのモデルおよび基準で最高のベースラインに対して12~14%改善する。
個別のチェックの分析では、LVLMは観察的チェック(可視性、ツールの障害など)に頼っているが、決定クリティカルな解剖学的証拠にかなりのばらつきがあることが示されている。
結論: 専門家による検証チェックに外科的推論を構造化することで,LVLMに基づくCVS評価の正確性と透明性が向上する。
コードはhttps://github.com/BrachioLab/SumOfChecksで入手できる。
関連論文リスト
- Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage [20.835664121303534]
ビジョン言語モデル(VLM)は、医療報告生成や視覚的質問応答といったタスクにますます使われています。
臨床実践では、解釈は診断前の衛生検査から始まる。
既存のベンチマークでは、このステップが解決されたと仮定しており、致命的な障害モードを見逃している。
我々は1,880タスクのベンチマークであるMedObviousを導入し、入力検証をセットレベルの一貫性機能として分離する。
論文 参考訳(メタデータ) (2026-03-24T17:59:54Z) - Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification [12.60121003165514]
ヴィジュアル言語モデル(VLM)は放射線学レポートの起草において有望であるが、しばしば論理的矛盾に悩まされる。
標準的な語彙測度は、臨床パラフレージングを強く罰し、これらの誘因的障害を捉えるのに失敗する。
本稿では,VLMレポートの内部一貫性を決定的に監査するニューロシンボリック検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-27T15:49:59Z) - Overalignment in Frontier LLMs: An Empirical Study of Sycophantic Behaviour in Healthcare [1.9010852820067994]
モデル不安定性("Confusability")を考慮してアライメントバイアスを分離する新しい尺度であるAdjusted Sycophancy Scoreを提案する。
以上の結果から, ベンチマーク性能は臨床信頼性の指標ではないことが示唆され, 簡易な推論構造は, 専門家主導の薬効に対して優れた堅牢性をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2026-01-26T10:21:34Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation [5.469454486414467]
大言語モデル (LLMs) は脊椎手術における臨床的決定支援の転換的可能性を提供する。
LLMは幻覚を通じて重大なリスクを引き起こすが、これは事実的に矛盾しているか、文脈的に不一致な出力である。
本研究は, 診断精度, 推奨品質, 推理堅牢性, 出力コヒーレンス, 知識アライメントを評価することによって, 幻覚リスクを定量化するための臨床中心の枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-01T15:25:55Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。