論文の概要: SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video
- arxiv url: http://arxiv.org/abs/2602.21706v1
- Date: Wed, 25 Feb 2026 09:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.769313
- Title: SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video
- Title(参考訳): SurGo-R1:手術映像における操作領域のベンチマークとモデル化
- Authors: Guanyi Qin, Xiaozhen Wang, Zhu Zhuo, Chang Han Low, Yuancan Xiao, Yibing Fu, Haofeng Liu, Kai Wang, Chunjiang Li, Yueming Jin,
- Abstract要約: 本稿では,Go Zone境界ボックスを付加したラパロスコープフレームのベンチマークであるResGoを紹介する。
次に,マルチターン位相-then-goアーキテクチャを用いてRLHFを最適化したSurGo-R1を提案する。
目に見えない手順では、SurGo-R1は76.6%の位相精度、32.7 mIoU、54.8%のハードコア精度を達成している。
- 参考スコア(独自算出の注目度): 14.263054454077272
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Minimally invasive surgery has dramatically improved patient operative outcomes, yet identifying safe operative zones remains challenging in critical phases, requiring surgeons to integrate visual cues, procedural phase, and anatomical context under high cognitive load. Existing AI systems offer binary safety verification or static detection, ignoring the phase-dependent nature of intraoperative reasoning. We introduce ResGo, a benchmark of laparoscopic frames annotated with Go Zone bounding boxes and clinician-authored rationales covering phase, exposure quality reasoning, next action and risk reminder. We introduce evaluation metrics that treat correct grounding under incorrect phase as failures, revealing that most vision-language models cannot handle such tasks and perform poorly. We then present SurGo-R1, a model optimized via RLHF with a multi-turn phase-then-go architecture where the model first identifies the surgical phase, then generates reasoning and Go Zone coordinates conditioned on that context. On unseen procedures, SurGo-R1 achieves 76.6% phase accuracy, 32.7 mIoU, and 54.8% hardcore accuracy, a 6.6$\times$ improvement over the mainstream generalist VLMs. Code, model and benchmark will be available at https://github.com/jinlab-imvr/SurGo-R1
- Abstract(参考訳): 最小侵襲手術は患者の手術成績を劇的に改善させたが、安全な手術ゾーンの特定は重要な段階では困難であり、外科医は高い認知負荷下での視覚的手がかり、手続き的フェーズ、解剖学的コンテキストを統合する必要がある。
既存のAIシステムは、二元的安全性検証や静的検出を提供し、術中推論の位相依存性を無視している。
本稿では,Go Zone境界ボックスに注釈付き腹腔鏡フレームのベンチマークであるResGoを紹介した。
誤位相下での正しい接地を失敗として扱う評価指標を導入し、ほとんどの視覚言語モデルではそのようなタスクを処理できず、性能が良くないことを示した。
次に,RLHFを用いて最適化されたSurGo-R1を複数ターン位相-then-goアーキテクチャで提示する。
目に見えない手順では、SurGo-R1は76.6%の位相精度、32.7 mIoU、54.8%のハードコア精度、主流のジェネラリストVLMよりも6.6$\times$改善された。
コード、モデル、ベンチマークはhttps://github.com/jinlab-imvr/SurGo-R1で公開される。
関連論文リスト
- SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL [26.10211846938172]
LVLM(General-purpose Large Vision-Language Models)は「びまん性注意」による皮膚科学にしばしば影響を及ぼす
本稿では,視覚情報伝達効率の最適化として診断を扱うフレームワークであるSkinFlowを紹介する。
論文 参考訳(メタデータ) (2026-01-14T04:21:07Z) - Leveraging Synthetic Priors for Monocular Depth Estimation in Specular Surgical Environments [0.0]
既存の自己監督法は、しばしば薄い手術器具と透明な表面の境界崩壊に悩まされる。
本研究は,Depth Anything V2アーキテクチャの高忠実性合成前駆体を活用することで,この問題に対処する。
提案手法は,新しい最先端技術を確立し,98.1%の精度(1.25)を達成し,既存のベースラインと比較して正方形相対誤差を17%以上削減する。
論文 参考訳(メタデータ) (2025-12-29T17:29:42Z) - Decoding the Surgical Scene: A Scoping Review of Scene Graphs in Surgery [36.192962258966105]
シーングラフ(SG)は、複雑なダイナミックな手術環境のデコードに不可欠な構造化された表現を提供する。
The PRISMA-ScR-guided scoping review systemally map the evolution landscape of SG research in surgery。
我々の分析は急速に成長しているが、重要な「データ分割」を明らかにしている
SGは重要なセマンティックブリッジに成熟し、新しい世代のインテリジェントシステムによって外科の安全性、効率、訓練を改善することができる。
論文 参考訳(メタデータ) (2025-09-25T09:25:46Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking [15.83425997240828]
ReSurgSAM2は2段階の外科的セグメンテーションフレームワークである。
クロスモーダルな時空間マンバを用いて正確な検出とセグメンテーション結果を生成する。
信頼性と多様なメモリバンクを維持し、一貫した長期追跡を保証する、多様性駆動型メモリ機構を備えている。
論文 参考訳(メタデータ) (2025-05-13T13:56:10Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - Think Step by Step: Chain-of-Gesture Prompting for Error Detection in Robotic Surgical Videos [18.106255939686545]
このレターでは、新しいエンドツーエンドエラー検出フレームワークであるChain-of-Thought(COG)のプロンプトを提示する。
これは、専門家外科医の意思決定プロセスを模倣するために設計された2つの推論モジュールを含んでいる。
本手法は,F1スコアの4.6%,精度の4.6%,ジャカード指数の5.9%,各フレームを平均6.69ミリ秒で処理しながら,外科的活動に固有の推論過程をカプセル化する。
論文 参考訳(メタデータ) (2024-06-27T14:43:50Z) - Safe Deep RL for Intraoperative Planning of Pedicle Screw Placement [61.28459114068828]
安全な深部強化学習(DRL)に基づく訓練経路計画にリアルタイムな観察を活用するロボット脊椎手術の術中計画手法を提案する。
本手法は,ゴールドスタンダード (GS) 掘削計画に関して,90%の骨貫通を達成できた。
論文 参考訳(メタデータ) (2023-05-09T11:42:53Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Automated SSIM Regression for Detection and Quantification of Motion
Artefacts in Brain MR Images [54.739076152240024]
磁気共鳴脳画像における運動アーチファクトは重要な問題である。
MR画像の画質評価は,臨床診断に先立って基本的である。
構造類似度指数(SSIM)回帰に基づく自動画像品質評価法が提案されている。
論文 参考訳(メタデータ) (2022-06-14T10:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。