論文の概要: Training-free Temporal Object Tracking in Surgical Videos
- arxiv url: http://arxiv.org/abs/2603.07839v1
- Date: Sun, 08 Mar 2026 23:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.317298
- Title: Training-free Temporal Object Tracking in Surgical Videos
- Title(参考訳): 手術映像における訓練不要な時間物体追跡
- Authors: Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo,
- Abstract要約: 腹腔鏡下胆嚢摘出術(LC)手術ビデオにおけるオンライン物体追跡のための新しいアプローチを提案する。
提案手法は,既存のデータセットに固有の,コストの高いピクセルレベルのアノテーションとラベルの不整合の課題に対処する。
- 参考スコア(独自算出の注目度): 20.689670966095097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Purpose: In this paper, we present a novel approach for online object tracking in laparoscopic cholecystectomy (LC) surgical videos, targeting localisation and tracking of critical anatomical structures and instruments. Our method addresses the challenges of costly pixel-level annotations and label inconsistencies inherent in existing datasets. Methods: Leveraging the inherent object localisation capabilities of pre-trained text-to-image diffusion models, we extract representative features from surgical frames without any training or fine-tuning. Our tracking framework uses these features, along with cross-frame interactions via an affinity matrix inspired by query-key-value attention, to ensure temporal continuity in the tracking process. Results: Through a pilot study, we first demonstrate that diffusion features exhibit superior object localisation and consistent semantics across different decoder levels and temporal frames. Later, we perform extensive experiments to validate the effectiveness of our approach, showcasing its superiority over competitors for the task of temporal object tracking. Specifically, we achieve a per-pixel classification accuracy of 79.19%, mean Jaccard Score of 56.20%, and mean F-Score of 79.48% on the publicly available CholeSeg8K dataset. Conclusion: Our work not only introduces a novel application of text-to-image diffusion models but also contributes to advancing the field of surgical video analysis, offering a promising avenue for accurate and cost-effective temporal object tracking in minimally invasive surgery videos.
- Abstract(参考訳): 目的:本論文では,腹腔鏡下胆嚢摘出術(LC)手術ビデオにおけるオンライン物体追跡の新しい手法を提案する。
提案手法は,既存のデータセットに固有の,コストの高いピクセルレベルのアノテーションとラベルの不整合の課題に対処する。
方法: 予め訓練したテキスト・画像拡散モデルの固有物体局所化機能を活用して, 訓練や微調整を行わずに, 外科的フレームから代表的特徴を抽出する。
我々のトラッキングフレームワークは、これらの特徴と、クエリキー値の注意にインスパイアされた親和性マトリックスを介して、トラッキングプロセスにおける時間的連続性を保証するために、クロスフレームインタラクションを使用する。
結果: 実験により, 拡散特性は, 異なるデコーダレベルと時間的フレームにまたがって, 優れたオブジェクトの局所化と一貫したセマンティクスを示すことを示した。
その後,提案手法の有効性を検証するため,時間的対象追跡の課題において,競合相手よりも優れていることを示す広範な実験を行った。
具体的には、画素あたりの分類精度が79.19%、ジャカードスコアが56.20%、Fスコアが79.48%、ColeSeg8Kデータセットが公開されている。
結論:本研究は, テキスト・ツー・イメージ拡散モデルの新しい応用法であると同時に, 術中画像解析の進歩にも寄与し, 最小侵襲の手術ビデオにおいて, 正確かつ費用対効果の高い時間的物体追跡のための有望な道筋を提供する。
関連論文リスト
- Clinical-Prior Guided Multi-Modal Learning with Latent Attention Pooling for Gait-Based Scoliosis Screening [8.010714901985898]
思春期特発性強皮症(AIS)は,早期発見により進行を緩和できる脊髄変形である。
現在のスクリーニング手法は主観的であり、スケールが難しく、専門的な専門知識に依存している。
ビデオベースの歩行分析は、有望な代替手段を提供するが、現在のデータセットとメソッドは、しばしばデータ漏洩に悩まされる。
ScoliGaitは、トレーニング用の1,572の歩行ビデオクリップと、テスト用の300の完全に独立したクリップからなる、新しいベンチマークデータセットである。
論文 参考訳(メタデータ) (2026-02-06T14:44:22Z) - One Patient's Annotation is Another One's Initialization: Towards Zero-Shot Surgical Video Segmentation with Cross-Patient Initialization [1.0536099636804035]
ビデオオブジェクトセグメンテーションは、リアルタイムな外科的ビデオセグメンテーションに適した新興技術である。
しかし、追跡されたオブジェクトを選択するために手動で介入する必要があるため、その採用は限られている。
本研究では,他の患者からの注釈付きフレームを追跡フレームとして使用することで,この課題を革新的な解決法で解決する。
この非従来的アプローチは、患者の追跡フレームの使用実績と一致したり、超えたりすることさえできる。
論文 参考訳(メタデータ) (2025-03-04T03:11:03Z) - Self-Supervised Learning for Interventional Image Analytics: Towards Robust Device Trackers [6.262161803642583]
我々は,1600万以上の干渉X線フレームからなる非常に大きなデータコホートから手続き的特徴を学習するための新しい手法を提案する。
本手法は,フレームベース再構成を利用してフレーム間時間対応を微妙に学習するマスク付き画像モデリング技術に基づいている。
実験の結果,提案手法は参照解に対する最大追従誤差を66.31%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-02T10:18:22Z) - Real-time guidewire tracking and segmentation in intraoperative x-ray [52.51797358201872]
リアルタイムガイドワイヤ分割と追跡のための2段階のディープラーニングフレームワークを提案する。
第1段階では、ヨロフ5検出器が元のX線画像と合成画像を使って訓練され、ターゲットのガイドワイヤのバウンディングボックスを出力する。
第2段階では、検出された各バウンディングボックスにガイドワイヤを分割するために、新規で効率的なネットワークが提案されている。
論文 参考訳(メタデータ) (2024-04-12T20:39:19Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools [1.7059333957102913]
既存のデータセットは、外科固有のダイナミックスを捉えるのに失敗した、過度に汎用的な追跡形式に依存している。
外科手術における多クラス多ツール追跡のための特別なデータセットであるCholecTrack20を紹介する。
データセットは20のフル長の手術ビデオからなり、1fpsで注釈付けされ、35Kフレーム以上と65Kラベルのツールインスタンスが生成される。
論文 参考訳(メタデータ) (2023-12-12T15:18:15Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - A Temporal Learning Approach to Inpainting Endoscopic Specularities and
Its effect on Image Correspondence [13.25903945009516]
本稿では,時間的生成的対位ネットワーク(GAN)を用いて,隠蔽解剖学を特異性の下で描くことを提案する。
これは、胃内視鏡(Hyper-Kvasir)の生検データを用いて、完全に教師なしの方法で達成される。
また,3次元再構成とカメラモーション推定の基盤となるコンピュータビジョンタスクにおける本手法の有効性を評価する。
論文 参考訳(メタデータ) (2022-03-31T13:14:00Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。