論文の概要: Future Slot Prediction for Unsupervised Object Discovery in Surgical Video
- arxiv url: http://arxiv.org/abs/2507.01882v1
- Date: Wed, 02 Jul 2025 16:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.382638
- Title: Future Slot Prediction for Unsupervised Object Discovery in Surgical Video
- Title(参考訳): 手術映像における教師なし物体発見の今後のスロット予測
- Authors: Guiqiu Liao, Matjaz Jogan, Marcel Hussing, Edward Zhang, Eric Eaton, Daniel A. Hashimoto,
- Abstract要約: オブジェクト中心のスロットアテンションは、構造化された解釈可能なオブジェクト中心の表現を教師なしで学習するための新たなパラダイムである。
適応スロット数による現在のアプローチは,画像上では良好に機能するが,手術ビデオ上でのパフォーマンスは低い。
本稿では、時間的推論と最適な将来スロット予測の両方のために訓練された動的時間的スロットトランス (DTST) モジュールを提案する。
- 参考スコア(独自算出の注目度): 10.984331138780682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-centric slot attention is an emerging paradigm for unsupervised learning of structured, interpretable object-centric representations (slots). This enables effective reasoning about objects and events at a low computational cost and is thus applicable to critical healthcare applications, such as real-time interpretation of surgical video. The heterogeneous scenes in real-world applications like surgery are, however, difficult to parse into a meaningful set of slots. Current approaches with an adaptive slot count perform well on images, but their performance on surgical videos is low. To address this challenge, we propose a dynamic temporal slot transformer (DTST) module that is trained both for temporal reasoning and for predicting the optimal future slot initialization. The model achieves state-of-the-art performance on multiple surgical databases, demonstrating that unsupervised object-centric methods can be applied to real-world data and become part of the common arsenal in healthcare applications.
- Abstract(参考訳): オブジェクト中心スロットアテンション(Object-centric slot attention)は、構造化された解釈可能なオブジェクト中心表現(スロット)の教師なし学習のための新興パラダイムである。
これにより、計算コストの低いオブジェクトやイベントを効果的に推論することができ、手術ビデオのリアルタイム解釈などの重要な医療応用に適用できる。
しかし、手術のような現実世界の応用における異種シーンは、意味のあるスロットの集合に解析することが困難である。
適応スロット数による現在のアプローチは,画像上では良好に機能するが,手術ビデオ上でのパフォーマンスは低い。
この課題に対処するために、時間的推論と最適将来のスロット初期化予測の両方のために訓練された動的時間的スロット変換器(DTST)モジュールを提案する。
このモデルは、複数の手術データベース上で最先端のパフォーマンスを達成し、教師なしのオブジェクト中心の手法が現実世界のデータに適用され、医療応用における一般的な兵器の一部となることを実証する。
関連論文リスト
- Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Slot-BERT: Self-supervised Object Discovery in Surgical Video [9.224875902060083]
Slot-BERTは、制約のない長さの長いビデオにオブジェクト発見をシームレスにスケールする。
Slot-BERTは,腹部,胆嚢摘出術,胸腔鏡下手術から得られた実世界の外科的ビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2025-01-21T19:59:22Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Weakly Supervised YOLO Network for Surgical Instrument Localization in Endoscopic Videos [17.304000735410145]
本報告では,手術器具に対するWS-YOLO(WS-YOLO)という,弱教師付きローカライゼーションフレームワークを提案する。
楽器カテゴリー情報を弱い監督力として活用することにより、当社のWS-YOLOフレームワークは、ローカライゼーション能力トレーニングに教師なしのマルチラウンドトレーニング戦略を採用する。
手術器具の低調な位置合わせにおいて優れた性能を発揮する内視鏡視力チャレンジ2023データセット上でのWS-YOLOフレームワークの有効性を検証した。
論文 参考訳(メタデータ) (2023-09-23T15:28:53Z) - Intuitive Surgical SurgToolLoc Challenge Results: 2022-2023 [55.40111320730479]
我々は、先進的なRA応用の文脈において、難しい機械学習問題を解決するために、外科データ科学のコミュニティに挑戦してきた。
ここでは,手術ツールの局所化(SurgToolLoc)を中心に,これらの課題の成果を報告する。
これらの課題に対応する公開データセットは、別の論文arXiv:2501.09209で詳述されている。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - E-DSSR: Efficient Dynamic Surgical Scene Reconstruction with
Transformer-based Stereoscopic Depth Perception [15.927060244702686]
28 fpsの高ダイナミックな手術シーンに対して,効率的な再建パイプラインを提案する。
具体的には,効率的な深度推定のための変圧器を用いた立体視深度知覚を設計する。
提案したパイプラインを,公開Hamlyn Centre内視鏡ビデオデータセットと社内のDaVinciロボット手術データセットの2つのデータセットで評価した。
論文 参考訳(メタデータ) (2021-07-01T05:57:41Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。