論文の概要: Chain-of-Look Spatial Reasoning for Dense Surgical Instrument Counting
- arxiv url: http://arxiv.org/abs/2602.11024v1
- Date: Wed, 11 Feb 2026 16:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.212039
- Title: Chain-of-Look Spatial Reasoning for Dense Surgical Instrument Counting
- Title(参考訳): 重度手術器具計数のためのチェーン・オブ・ルーク空間推論
- Authors: Rishikesh Bhyri, Brian R Quaranto, Philip J Seger, Kaity Tung, Brendan Fox, Gene Yang, Steven D. Schwaitzberg, Junsong Yuan, Nan Xi, Peter C W Kim,
- Abstract要約: 逐次的人間の数え上げ過程を模倣する新しい視覚推論フレームワークであるChain-of-Lookを紹介した。
このビジュアルチェインは、コヒーレントな空間軌跡に沿って数えられるように誘導し、複雑なシーンの精度を向上させる。
また1,464個の高密度手術器具画像からなる新しいデータセットであるSurgCount-HDも提示した。
- 参考スコア(独自算出の注目度): 15.430935719365793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate counting of surgical instruments in Operating Rooms (OR) is a critical prerequisite for ensuring patient safety during surgery. Despite recent progress of large visual-language models and agentic AI, accurately counting such instruments remains highly challenging, particularly in dense scenarios where instruments are tightly clustered. To address this problem, we introduce Chain-of-Look, a novel visual reasoning framework that mimics the sequential human counting process by enforcing a structured visual chain, rather than relying on classic object detection which is unordered. This visual chain guides the model to count along a coherent spatial trajectory, improving accuracy in complex scenes. To further enforce the physical plausibility of the visual chain, we introduce the neighboring loss function, which explicitly models the spatial constraints inherent to densely packed surgical instruments. We also present SurgCount-HD, a new dataset comprising 1,464 high-density surgical instrument images. Extensive experiments demonstrate that our method outperforms state-of-the-art approaches for counting (e.g., CountGD, REC) as well as Multimodality Large Language Models (e.g., Qwen, ChatGPT) in the challenging task of dense surgical instrument counting.
- Abstract(参考訳): 手術室(OR)における手術器具の正確な計数は、手術中の患者の安全を確保するための重要な前提条件である。
近年の大規模視覚言語モデルとエージェントAIの進歩にもかかわらず、特に楽器が密集した密集したシナリオにおいて、これらの機器を正確に数えることは非常に困難である。
この問題を解決するためにChain-of-Lookという新しい視覚的推論フレームワークを導入する。これは、非順序の古典的物体検出に頼るのではなく、構造化された視覚的連鎖を強制することによって、連続的な人間の数え上げ過程を模倣する。
このビジュアルチェインは、コヒーレントな空間軌跡に沿って数えられるように誘導し、複雑なシーンの精度を向上させる。
さらに視覚連鎖の物理的妥当性を高めるために,密集した手術器具に固有の空間的制約を明示的にモデル化した隣接損失関数を導入する。
また1,464個の高密度手術器具画像からなる新しいデータセットであるSurgCount-HDも提示した。
以上の結果から,本手法は多品位大規模言語モデル(例えばQwen,ChatGPT)と同様に,高密度手術器具カウントの課題において,最先端の手法(例えば,CountGD,REC)よりも優れていることが示された。
関連論文リスト
- Future Slot Prediction for Unsupervised Object Discovery in Surgical Video [10.984331138780682]
オブジェクト中心のスロットアテンションは、構造化された解釈可能なオブジェクト中心の表現を教師なしで学習するための新たなパラダイムである。
適応スロット数による現在のアプローチは,画像上では良好に機能するが,手術ビデオ上でのパフォーマンスは低い。
本稿では、時間的推論と最適な将来スロット予測の両方のために訓練された動的時間的スロットトランス (DTST) モジュールを提案する。
論文 参考訳(メタデータ) (2025-07-02T16:52:16Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - FUN-SIS: a Fully UNsupervised approach for Surgical Instrument
Segmentation [16.881624842773604]
FUN-SISについて述べる。
我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。
手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文 参考訳(メタデータ) (2022-02-16T15:32:02Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z) - Towards Better Surgical Instrument Segmentation in Endoscopic Vision:
Multi-Angle Feature Aggregation and Contour Supervision [22.253074722129053]
本稿では、現在のディープニューラルネットワーク(DNN)セグメンテーションモデルを改善するための汎用的な埋め込み可能なアプローチを提案する。
本手法は,外科医の手術から収集したSinus-Surgeryデータセットのアブレーション実験により検証した。
論文 参考訳(メタデータ) (2020-02-25T05:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。