Fugu-MT 論文翻訳(概要): Weakly Supervised YOLO Network for Surgical Instrument Localization in Endoscopic Videos

論文の概要: Weakly Supervised YOLO Network for Surgical Instrument Localization in Endoscopic Videos

arxiv url: http://arxiv.org/abs/2309.13404v3
Date: Fri, 21 Jun 2024 02:18:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 20:27:44.271368
Title: Weakly Supervised YOLO Network for Surgical Instrument Localization in Endoscopic Videos
Title（参考訳）: 鏡視下手術機器位置決め用YOLOネットワーク
Authors: Rongfeng Wei, Jinlin Wu, Xuexue Bai, Ming Feng, Zhen Lei, Hongbin Liu, Zhen Chen,
Abstract要約: 本報告では,手術器具に対するWS-YOLO(WS-YOLO)という,弱教師付きローカライゼーションフレームワークを提案する。楽器カテゴリー情報を弱い監督力として活用することにより、当社のWS-YOLOフレームワークは、ローカライゼーション能力トレーニングに教師なしのマルチラウンドトレーニング戦略を採用する。手術器具の低調な位置合わせにおいて優れた性能を発揮する内視鏡視力チャレンジ2023データセット上でのWS-YOLOフレームワークの有効性を検証した。
参考スコア（独自算出の注目度）: 17.304000735410145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In minimally invasive surgery, surgical instrument localization is a crucial task for endoscopic videos, which enables various applications for improving surgical outcomes. However, annotating the instrument localization in endoscopic videos is tedious and labor-intensive. In contrast, obtaining the category information is easy and efficient in real-world applications. To fully utilize the category information and address the localization problem, we propose a weakly supervised localization framework named WS-YOLO for surgical instruments. By leveraging the instrument category information as the weak supervision, our WS-YOLO framework adopts an unsupervised multi-round training strategy for the localization capability training. We validate our WS-YOLO framework on the Endoscopic Vision Challenge 2023 dataset, which achieves remarkable performance in the weakly supervised surgical instrument localization. The source code is available at https://github.com/Breezewrf/WS-YOLO.
Abstract（参考訳）: 最小侵襲手術では、手術器具のローカライゼーションは内視鏡的ビデオにとって重要な課題であり、手術結果の改善に様々な応用が可能である。しかし、内視鏡的ビデオにおける楽器の局在の注釈付けは退屈であり、労働集約的である。対照的に、カテゴリ情報を取得することは、現実世界のアプリケーションでは簡単かつ効率的である。分類情報を十分に活用し, 局所化問題に対処するために, 手術機器用WS-YOLOという, 弱教師付き局所化フレームワークを提案する。楽器カテゴリー情報を弱い監督力として活用することにより、当社のWS-YOLOフレームワークは、ローカライゼーション能力トレーニングに教師なしのマルチラウンドトレーニング戦略を採用する。手術器具の低調な位置合わせにおいて優れた性能を発揮する内視鏡視力チャレンジ2023データセット上でのWS-YOLOフレームワークの有効性を検証した。ソースコードはhttps://github.com/Breezewrf/WS-YOLOで公開されている。

関連論文リスト

Future Slot Prediction for Unsupervised Object Discovery in Surgical Video [10.984331138780682]
オブジェクト中心のスロットアテンションは、構造化された解釈可能なオブジェクト中心の表現を教師なしで学習するための新たなパラダイムである。適応スロット数による現在のアプローチは,画像上では良好に機能するが,手術ビデオ上でのパフォーマンスは低い。本稿では、時間的推論と最適な将来スロット予測の両方のために訓練された動的時間的スロットトランス (DTST) モジュールを提案する。
論文参考訳（メタデータ） (2025-07-02T16:52:16Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
UltraFlwr -- An Efficient Federated Medical and Surgical Object Detection Framework [38.933670402566506]
医用および外科的対象検出のためのフレームワークであるUltraFlwrを紹介する。 YOLO-PAは1ラウンドあたりの通信オーバーヘッドを最大83%削減する。医用および外科的対象検出における最初のベンチマークの1つを確立した。
論文参考訳（メタデータ） (2025-03-19T12:38:04Z)
Identifying Surgical Instruments in Pedagogical Cataract Surgery Videos through an Optimized Aggregation Network [1.053373860696675]
本稿では白内障手術ビデオにおける手術器具のリアルタイム同定のためのディープラーニングモデルを提案する。 YOLOV9のアーキテクチャにインスパイアされたこのモデルは、プログラマブル・グラディエント・インフォメーション(PGI)機構と、新しい汎用高効率層アグリゲーション・ネットワーク(Go-ELAN)を採用している。 YOLO v5, v7, v8, v9 vanilla, Laptool, DETR に対して評価された Go-ELAN YOLOV9 モデルは,IoU 0.5 において 615 画像のデータセットで 73.74 の優れた mAP を達成している。
論文参考訳（メタデータ） (2025-01-05T18:18:52Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
AMNCutter: Affinity-Attention-Guided Multi-View Normalized Cutter for Unsupervised Surgical Instrument Segmentation [7.594796294925481]
我々は,Multi-View Normalized Cutter(m-NCutter)という新しいモジュールを特徴とするラベルフリーな教師なしモデルを提案する。本モデルでは, パッチ親和性を利用したグラフカット損失関数を用いて, 疑似ラベルの不要化を図った。我々は、複数のSISデータセットにわたる包括的な実験を行い、事前訓練されたモデルとして、アプローチの最先端(SOTA)パフォーマンス、堅牢性、および例外的なポテンシャルを検証する。
論文参考訳（メタデータ） (2024-11-06T06:33:55Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
Tracking Everything in Robotic-Assisted Surgery [39.62251870446397]
そこで我々は,手術シナリオに対するベンチマーク追跡のための注釈付き手術追跡データセットを提案する。我々は,このデータセット上で最先端(SOTA)のTAPベースのアルゴリズムを評価し,その限界を明らかにする。本稿では,新たなトラッキング手法であるSurgMotionを提案し,その課題の解決とトラッキング性能の向上を図る。
論文参考訳（メタデータ） (2024-09-29T23:06:57Z)
SURGIVID: Annotation-Efficient Surgical Video Object Discovery [42.16556256395392]
手術シーンのセマンティックセグメンテーションのためのアノテーション効率のよいフレームワークを提案する。我々は,画像に基づく自己監督型物体発見法を用いて,外科的ビデオにおいて最も有能なツールや解剖学的構造を同定する。完全教師付きセグメンテーションモデルを用いて,36のアノテーションラベルで強化した無教師付きセットアップでは,同程度のローカライゼーション性能を示す。
論文参考訳（メタデータ） (2024-09-12T07:12:20Z)
EndoGSLAM: Real-Time Dense Reconstruction and Tracking in Endoscopic Surgeries using Gaussian Splatting [53.38166294158047]
EndoGSLAMは鏡視下手術の効率的なアプローチであり、合理化表現と微分ガウス化を統合している。実験の結果,EndoGSLAMは従来型あるいは神経型SLAMアプローチよりも術中可用性と再建品質のトレードオフが良好であることがわかった。
論文参考訳（メタデータ） (2024-03-22T11:27:43Z)
YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文参考訳（メタデータ） (2024-01-30T18:59:38Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文参考訳（メタデータ） (2023-05-11T21:44:39Z)
Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文参考訳（メタデータ） (2022-07-01T14:17:11Z)
Segmenting Medical Instruments in Minimally Invasive Surgeries using AttentionMask [66.63753229115983]
我々は,オブジェクト提案生成システムであるAttentionMaskに適応し,将来的な提案を選択するための専用の後処理を提案する。 ROBUST-MIS Challenge 2019の結果から,適応型 AttentionMask システムは最先端のパフォーマンスを実現するための強力な基盤であることがわかった。
論文参考訳（メタデータ） (2022-03-21T21:37:56Z)
FUN-SIS: a Fully UNsupervised approach for Surgical Instrument Segmentation [16.881624842773604]
FUN-SISについて述べる。我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文参考訳（メタデータ） (2022-02-16T15:32:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。