論文の概要: Efficient Frame Extraction: A Novel Approach Through Frame Similarity and Surgical Tool Tracking for Video Segmentation
- arxiv url: http://arxiv.org/abs/2501.11153v3
- Date: Mon, 28 Apr 2025 19:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:17:25.643854
- Title: Efficient Frame Extraction: A Novel Approach Through Frame Similarity and Surgical Tool Tracking for Video Segmentation
- Title(参考訳): 効率的なフレーム抽出:ビデオセグメンテーションのためのフレーム類似性と手術ツール追跡による新しいアプローチ
- Authors: Huu Phong Nguyen, Shekhar Madhav Khairnar, Sofia Garces Palacios, Amr Al-Abbas, Melissa E. Hogg, Amer H. Zureikat, Patricio M. Polanco, Herbert Zeh III, Ganesh Sankaranarayanan,
- Abstract要約: 本稿では,余剰フレームを効率的に除去し,データセットのサイズや計算時間を短縮する手法を提案する。
具体的には,手術器具の移動を追跡することで,連続するフレーム間の類似性を計算する。
症例の振り返りレビューから得られたデータセットを解析し,提案手法の有効性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The interest in leveraging Artificial Intelligence (AI) for surgical procedures to automate analysis has witnessed a significant surge in recent years. One of the primary tools for recording surgical procedures and conducting subsequent analyses, such as performance assessment, is through videos. However, these operative videos tend to be notably lengthy compared to other fields, spanning from thirty minutes to several hours, which poses a challenge for AI models to effectively learn from them. Despite this challenge, the foreseeable increase in the volume of such videos in the near future necessitates the development and implementation of innovative techniques to tackle this issue effectively. In this article, we propose a novel technique called Kinematics Adaptive Frame Recognition (KAFR) that can efficiently eliminate redundant frames to reduce dataset size and computation time while retaining useful frames to improve accuracy. Specifically, we compute the similarity between consecutive frames by tracking the movement of surgical tools. Our approach follows these steps: $i)$ Tracking phase: a YOLOv8 model is utilized to detect tools presented in the scene, $ii)$ Similarity phase: Similarities between consecutive frames are computed by estimating variation in the spatial positions and velocities of the tools, $iii$) Classification phase: An X3D CNN is trained to classify segmentation. We evaluate the effectiveness of our approach by analyzing datasets obtained through retrospective reviews of cases at two referral centers. The newly annotated Gastrojejunostomy (GJ) dataset covers procedures performed between 2017 and 2021, while the previously annotated Pancreaticojejunostomy (PJ) dataset spans from 2011 to 2022 at the same centers.
- Abstract(参考訳): 分析を自動化するための外科的手順に人工知能(AI)を活用することへの関心は、ここ数年で顕著な急上昇を目撃している。
手術手順を記録し、その後の分析を行うための主要なツールの1つとして、パフォーマンスアセスメントがある。
しかし、これらの操作ビデオは、他の分野と比較して顕著に長めであり、30分から数時間に及ぶため、AIモデルが効果的に学習する上での課題となる。
この課題にもかかわらず、近い将来、このようなビデオの量の増加は、この問題に効果的に取り組むための革新的な技術の開発と実装を必要としている。
本稿では,Kinematics Adaptive Frame Recognition (KAFR) と呼ばれる新しい手法を提案する。
具体的には,手術器具の移動を追跡することで,連続するフレーム間の類似性を計算する。
$i)$追跡フェーズ: YOLOv8モデルを使用してシーンに表示されるツールを検出する$ii)$類似フェーズ: 連続フレーム間の類似性は、ツールの空間的位置と速度の変化を推定することにより計算される$iii$) 分類フェーズ: X3D CNNは、セグメンテーションを分類するために訓練される。
2つのレファレンスセンターでの症例の振り返りレビューから得られたデータセットを解析し,本手法の有効性を評価する。
GJデータセットは2017年から2021年までの手順をカバーし、PJデータセットは2011年から2022年まで同じ中心で行われている。
関連論文リスト
- One Patient's Annotation is Another One's Initialization: Towards Zero-Shot Surgical Video Segmentation with Cross-Patient Initialization [1.0536099636804035]
ビデオオブジェクトセグメンテーションは、リアルタイムな外科的ビデオセグメンテーションに適した新興技術である。
しかし、追跡されたオブジェクトを選択するために手動で介入する必要があるため、その採用は限られている。
本研究では,他の患者からの注釈付きフレームを追跡フレームとして使用することで,この課題を革新的な解決法で解決する。
この非従来的アプローチは、患者の追跡フレームの使用実績と一致したり、超えたりすることさえできる。
論文 参考訳(メタデータ) (2025-03-04T03:11:03Z) - Less is More? Revisiting the Importance of Frame Rate in Real-Time Zero-Shot Surgical Video Segmentation [1.0536099636804035]
胆嚢摘出術におけるフレームレートがゼロショット手術ビデオセグメンテーションに及ぼす影響について検討し,複数のフレームサンプリングレートでSAM2の有効性を評価した。
意外なことに,従来の評価設定では,フレームレートが1秒あたりの1フレームあたりのフレームレートが25FPSを上回ることが示唆された。
リアルタイムストリーミングのシナリオでは、高いフレームレートが時間的コヒーレンスと安定性を、特に外科的把握器のような動的対象に対して向上させる。
論文 参考訳(メタデータ) (2025-02-28T10:42:09Z) - Novel adaptation of video segmentation to 3D MRI: efficient zero-shot knee segmentation with SAM2 [1.6237741047782823]
Segment Anything Model 2 を応用した3次元膝関節MRIのゼロショット単発セグメンテーション法を提案する。
3次元医用ボリュームのスライスを個々のビデオフレームとして扱うことで、SAM2の高度な能力を利用して、モーションおよび空間認識の予測を生成する。
SAM2は、訓練や微調整を伴わずに、ゼロショット方式でセグメント化タスクを効率的に実行できることを実証する。
論文 参考訳(メタデータ) (2024-08-08T21:39:15Z) - Self-Supervised Learning for Interventional Image Analytics: Towards Robust Device Trackers [6.262161803642583]
我々は,1600万以上の干渉X線フレームからなる非常に大きなデータコホートから手続き的特徴を学習するための新しい手法を提案する。
本手法は,フレームベース再構成を利用してフレーム間時間対応を微妙に学習するマスク付き画像モデリング技術に基づいている。
実験の結果,提案手法は参照解に対する最大追従誤差を66.31%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-02T10:18:22Z) - Exploring Optical Flow Inclusion into nnU-Net Framework for Surgical Instrument Segmentation [1.3444601218847545]
nnU-Netフレームワークは、時間情報なしで単一のフレームを分析するセマンティックセグメンテーションに優れていた。
オプティカルフロー(OF)は、ビデオタスクでよく使われるツールで、動きを推定し、時間情報を含む単一のフレームで表現する。
本研究は,nU-Netアーキテクチャに付加的な入力として,オペレーショナル・インスツルメンテーション・セグメンテーション・タスクの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-03-15T11:36:26Z) - Augmenting Efficient Real-time Surgical Instrument Segmentation in Video with Point Tracking and Segment Anything [9.338136334709818]
手術器具のセグメンテーションを微調整した軽量SAMモデルとオンラインポイントトラッカーを組み合わせた新しいフレームワークを提案する。
関心領域内のスパースポイントが追跡され、SAMをビデオシーケンス全体を通してプロンプトし、時間的一貫性を提供する。
提案手法は,XMemとトランスフォーマーをベースとした完全教師付きセグメンテーション手法に匹敵する有望な性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T18:12:42Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - CaRTS: Causality-driven Robot Tool Segmentation from Vision and
Kinematics Data [11.92904350972493]
ロボット支援手術中の視覚に基づくロボットツールのセグメンテーションは、拡張現実フィードバックなどの下流アプリケーションを可能にする。
ディープラーニングの導入により、楽器のセグメンテーションを画像から直接、あるいは画像から直接解決する多くの方法が提示された。
本稿では,ロボットツールセグメンテーションタスクの相補的因果モデルに基づいて設計した因果性駆動型ロボットツールセグメンテーションアルゴリズムCaRTSを提案する。
論文 参考訳(メタデータ) (2022-03-15T22:26:19Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Symmetric Dilated Convolution for Surgical Gesture Recognition [10.699258974625073]
外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。
本研究では,長期時間パターンを符号化・復号化するために,自己アテンションモジュールでブリッジされた対称的拡張構造を用いて手法を考案する。
JIGSAWSデータセットからの基本的なロボット縫合タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-07-13T13:34:48Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。