論文の概要: Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining
- arxiv url: http://arxiv.org/abs/2602.20500v1
- Date: Tue, 24 Feb 2026 02:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.587035
- Title: Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining
- Title(参考訳): イベント駆動グラフマイニングによる戦略監督型自律腹腔鏡カメラ制御
- Authors: Keyu Zhou, Peisen Xu, Yahao Wu, Jiming Chen, Gaofeng Li, Shunlei Li,
- Abstract要約: 本稿では,ハイレベルな視覚言語推論と低レベルなクローズドループ制御を併用したストラテジグラウンドフレームワークを提案する。
オフラインで生の外科的ビデオは、カメラ関連の時間的イベントに解析され、属性付きイベントグラフとして構造化される。
オンラインでは、微調整されたビジョン・ランゲージ・モデル(VLM)がライブ腹腔鏡像を処理し、支配的な戦略と離散的な画像ベースのモーションコマンドを予測する。
- 参考スコア(独自算出の注目度): 15.995867664955348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous laparoscopic camera control must maintain a stable and safe surgical view under rapid tool-tissue interactions while remaining interpretable to surgeons. We present a strategy-grounded framework that couples high-level vision-language inference with low-level closed-loop control. Offline, raw surgical videos are parsed into camera-relevant temporal events (e.g., interaction, working-distance deviation, and view-quality degradation) and structured as attributed event graphs. Mining these graphs yields a compact set of reusable camera-handling strategy primitives, which provide structured supervision for learning. Online, a fine-tuned Vision-Language Model (VLM) processes the live laparoscopic view to predict the dominant strategy and discrete image-based motion commands, executed by an IBVS-RCM controller under strict safety constraints; optional speech input enables intuitive human-in-the-loop conditioning. On a surgeon-annotated dataset, event parsing achieves reliable temporal localization (F1-score 0.86), and the mined strategies show strong semantic alignment with expert interpretation (cluster purity 0.81). Extensive ex vivo experiments on silicone phantoms and porcine tissues demonstrate that the proposed system outperforms junior surgeons in standardized camera-handling evaluations, reducing field-of-view centering error by 35.26% and image shaking by 62.33%, while preserving smooth motion and stable working-distance regulation.
- Abstract(参考訳): 自律型腹腔鏡カメラコントロールは、外科医に解釈可能なまま、迅速なツールとタスクの相互作用の下で安定かつ安全な外科的視界を維持する必要がある。
本稿では,ハイレベルな視覚言語推論と低レベルなクローズドループ制御を併用したストラテジグラウンドフレームワークを提案する。
オフラインでは、生の外科的ビデオは、カメラに関連する時間的事象(例えば、相互作用、作業距離のずれ、ビュー品質の低下)に解析され、属性付きイベントグラフとして構造化される。
これらのグラフをマイニングすることで、再利用可能なカメラハンドリング戦略プリミティブのコンパクトなセットが得られ、学習のための構造化された監視を提供する。
オンラインでは、微調整されたビジョン・ランゲージ・モデル(VLM)がライブ・ラパロスコープ・ビューを処理し、厳密な安全制約の下でIBVS-RCMコントローラによって実行される、支配的な戦略と離散的な画像ベースのモーション・コマンドを予測する。
外科医がアノテートしたデータセットでは、イベント解析は信頼できる時間的局所化(F1スコア0.86)を実現し、マイニングされた戦略は専門家の解釈(クラスタ純度0.81)と強いセマンティックアライメントを示す。
シリコーンファントムとブタの組織に関する大規模な生体外実験により、提案システムは、カメラハンドリングの評価においてジュニア外科医よりも優れ、視野中心誤差を35.26%減らし、画像震動を62.33%減らし、スムーズな動きと安定した作業距離規制を維持した。
関連論文リスト
- SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement [45.37105164372227]
SurgAtt-Trackerは外科的注意をしっかり追跡する総合的なフレームワークである。
複数の外科的データセットの実験は、SurgAtt-Trackerが一貫して最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-02-24T07:30:51Z) - EndoControlMag: Robust Endoscopic Vascular Motion Magnification with Periodic Reference Resetting and Hierarchical Tissue-aware Dual-Mask Control [10.426745597034204]
本研究では,内視鏡環境に適合したマスク条件の血管運動拡大機能を備えたトレーニングフリーフレームワークであるEndoControlMagを紹介する。
提案手法は2つの重要なモジュールを特徴付ける: エラーの蓄積を防ぐために、動画を動的に更新された参照フレームでショートオーバーラップするクリップに分割する定期参照リセット方式。
本研究では,EndoVMM24データセット上でのEndoControlMagの評価を行った。
論文 参考訳(メタデータ) (2025-07-21T06:47:44Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Self-Supervised Learning for Interventional Image Analytics: Towards Robust Device Trackers [6.262161803642583]
我々は,1600万以上の干渉X線フレームからなる非常に大きなデータコホートから手続き的特徴を学習するための新しい手法を提案する。
本手法は,フレームベース再構成を利用してフレーム間時間対応を微妙に学習するマスク付き画像モデリング技術に基づいている。
実験の結果,提案手法は参照解に対する最大追従誤差を66.31%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-02T10:18:22Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Real-time Surgical Environment Enhancement for Robot-Assisted Minimally
Invasive Surgery Based on Super-Resolution [18.696539908774454]
本稿では,GAN(Generative Adversarial Network)に基づくビデオ超解像法を提案し,自動ズーム比調整のためのフレームワークを構築する。
外科手術中の関心領域(ROI)の高品質な可視化のために、自動リアルタイムズームを提供する。
論文 参考訳(メタデータ) (2020-11-08T15:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。