論文の概要: SurgGoal: Rethinking Surgical Planning Evaluation via Goal-Satisfiability
- arxiv url: http://arxiv.org/abs/2601.10455v1
- Date: Thu, 15 Jan 2026 14:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.175369
- Title: SurgGoal: Rethinking Surgical Planning Evaluation via Goal-Satisfiability
- Title(参考訳): SurgGoal:目標満足度による手術計画評価の再考
- Authors: Ruochen Li, Kun Yuan, Yufei Xia, Yue Zhou, Qingyu Lu, Weihang Li, Youxiang Zhu, Nassir Navab,
- Abstract要約: 順序や内容の誤りを含む適切な手続き的バリエーションと無効な計画を含む多中心的メタ評価ベンチマークを導入する。
シーケンス類似度指標は, 計画品質を体系的に誤解し, 有効計画のペナルティ化を図り, 無効案の特定に失敗することを示す。
そこで我々は,段階的に制約された条件下でのビデオLLMを評価するために,ルールベースの目標満足度基準を高精度なメタ評価基準として採用する。
- 参考スコア(独自算出の注目度): 44.76736667491175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgical planning integrates visual perception, long-horizon reasoning, and procedural knowledge, yet it remains unclear whether current evaluation protocols reliably assess vision-language models (VLMs) in safety-critical settings. Motivated by a goal-oriented view of surgical planning, we define planning correctness via phase-goal satisfiability, where plan validity is determined by expert-defined surgical rules. Based on this definition, we introduce a multicentric meta-evaluation benchmark with valid procedural variations and invalid plans containing order and content errors. Using this benchmark, we show that sequence similarity metrics systematically misjudge planning quality, penalizing valid plans while failing to identify invalid ones. We therefore adopt a rule-based goal-satisfiability metric as a high-precision meta-evaluation reference to assess Video-LLMs under progressively constrained settings, revealing failures due to perception errors and under-constrained reasoning. Structural knowledge consistently improves performance, whereas semantic guidance alone is unreliable and benefits larger models only when combined with structural constraints.
- Abstract(参考訳): 手術計画では,視覚的知覚,長期的推論,手続き的知識が統合されているが,現在の評価プロトコルが視覚言語モデル(VLM)を安全クリティカルな環境で確実に評価するかどうかは不明である。
手術計画の目標志向の視点により,我々は段階目標満足度による計画の正当性を定義し,その正当性は専門家定義の手術規則によって決定される。
この定義に基づいて,順序と内容の誤りを含む適切な手続き的バリエーションと計画の無効化を伴う多中心的メタ評価ベンチマークを導入する。
このベンチマークを用いて、シーケンス類似度指標が計画品質を体系的に誤って判断し、有効プランをペナルティ化し、無効プランの特定に失敗することを示す。
そこで我々は,ルールに基づく目標満足度尺度を高精度なメタ評価基準として採用し,段階的に制約された設定下での映像LLMの評価を行い,認識誤りや制約の少ない推論による失敗を明らかにする。
構造的知識はパフォーマンスを継続的に改善するが、セマンティックガイダンスだけでは信頼性が低く、構造的制約と組み合わせることで大きなモデルに利益をもたらす。
関連論文リスト
- RepV: Safety-Separable Latent Spaces for Scalable Neurosymbolic Plan Verification [17.66826792670962]
本稿では,安全かつ安全でない計画が線形に分離可能な潜在空間を学習することで,両視点を統一するニューロシンボリック検証器RepVを紹介する。
RepVは軽量なプロジェクタを訓練し、各プランと言語モデル生成の理論的根拠を低次元空間に組み込む。
RepVは、潜伏空間における位置に基づいて正しい検証の可能性を確率論的に保証する。
論文 参考訳(メタデータ) (2025-10-30T18:46:34Z) - Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。
自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。
提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T02:21:59Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity [0.659529078336196]
大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、高レベルの行動を戦略的に計画することを可能にする。
LLMの幻覚は、ロボットがユーザー目標と不一致の計画を実行したり、クリティカルなシナリオでは安全でないりする可能性がある。
本稿では,LLMの不確かさとタスク固有のあいまいさを一致させる系統的手法であるイントロスペクティブプランニングを提案する。
論文 参考訳(メタデータ) (2024-02-09T16:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。