論文の概要: Endo-TTAP: Robust Endoscopic Tissue Tracking via Multi-Facet Guided Attention and Hybrid Flow-point Supervision
- arxiv url: http://arxiv.org/abs/2503.22394v1
- Date: Fri, 28 Mar 2025 13:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:21.906772
- Title: Endo-TTAP: Robust Endoscopic Tissue Tracking via Multi-Facet Guided Attention and Hybrid Flow-point Supervision
- Title(参考訳): Endo-TTAP: Multi-Facet Guided Attention と Hybrid Flow-point Supervision によるロバスト内視鏡的組織追跡
- Authors: Rulin Zhou, Wenlong He, An Wang, Qiqi Yao, Haijun Hu, Jiankun Wang, Xi Zhang an Hongliang Ren,
- Abstract要約: Endo-TTAPは内視鏡的ビデオにおける組織点追跡のための新しいフレームワークである。
MFGAモジュールは、多スケールフローダイナミクス、DINOv2セマンティック埋め込み、および明示的な動きパターンを相乗して、ポイント位置を共同で予測する。
ステージIは、光学フローグラウンド真理を用いた合成データを用いて不確定閉塞正則化を行う。
ステージIIは、教師なしのフロー一貫性と半教師付き学習と、市販のトラッカーからの洗練された擬似ラベルを組み合わせる。
- 参考スコア(独自算出の注目度): 3.290418382279656
- License:
- Abstract: Accurate tissue point tracking in endoscopic videos is critical for robotic-assisted surgical navigation and scene understanding, but remains challenging due to complex deformations, instrument occlusion, and the scarcity of dense trajectory annotations. Existing methods struggle with long-term tracking under these conditions due to limited feature utilization and annotation dependence. We present Endo-TTAP, a novel framework addressing these challenges through: (1) A Multi-Facet Guided Attention (MFGA) module that synergizes multi-scale flow dynamics, DINOv2 semantic embeddings, and explicit motion patterns to jointly predict point positions with uncertainty and occlusion awareness; (2) A two-stage curriculum learning strategy employing an Auxiliary Curriculum Adapter (ACA) for progressive initialization and hybrid supervision. Stage I utilizes synthetic data with optical flow ground truth for uncertainty-occlusion regularization, while Stage II combines unsupervised flow consistency and semi-supervised learning with refined pseudo-labels from off-the-shelf trackers. Extensive validation on two MICCAI Challenge datasets and our collected dataset demonstrates that Endo-TTAP achieves state-of-the-art performance in tissue point tracking, particularly in scenarios characterized by complex endoscopic conditions. The source code and dataset will be available at https://anonymous.4open.science/r/Endo-TTAP-36E5.
- Abstract(参考訳): 内視鏡ビデオにおける正確な組織点追跡は、ロボットによる外科的ナビゲーションとシーン理解にとって重要であるが、複雑な変形、楽器の閉塞、高密度な軌跡アノテーションの不足により、依然として困難である。
既存手法は,これらの条件下での長期追跡に苦慮している。
この課題に対処する新しいフレームワークであるEndo-TTAPについて述べる。(1)マルチスケールフローダイナミックス、DINOv2セマンティック埋め込み、および明示的な動きパターンを相乗化して、不確実性と排他的認識を伴うポイント位置を共同で予測するEdo-TTAP、(2)Auxiliary Curriculum Adapter(ACA)を用いた2段階のカリキュラム学習戦略。
ステージIは光学的フローグラウンド真理を用いた合成データを用いて不確定閉塞正則化を行う一方,ステージIIは教師なしフロー一貫性と半教師なし学習を,オフザシェルフトラッカーの洗練された擬似ラベルと組み合わせる。
2つのMICCAI Challengeデータセットの広範囲な検証と収集したデータセットは、組織点追跡において、特に複雑な内視鏡的条件を特徴とするシナリオにおいて、Endo-TTAPが最先端のパフォーマンスを達成することを示す。
ソースコードとデータセットはhttps://anonymous.4open.science/r/Endo-TTAP-36E5で公開されている。
関連論文リスト
- Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems [2.0179223501624786]
本稿では,知識蒸留とクロスモーダルコントラスト学習を活用したTCVADS(Two-stage Cross-modal Video Anomaly Detection System)を提案する。
実験結果から,TCVADSはモデル性能,検出効率,解釈可能性において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-28T16:24:35Z) - Multimodal Outer Arithmetic Block Dual Fusion of Whole Slide Images and Omics Data for Precision Oncology [6.418265127069878]
本稿では, 局所(パッチレベル)から大域(スライダーレベル)の相互作用の相補的な情報を取得するために, 早期・後期融合におけるオミック埋め込みの利用を提案する。
この二重融合戦略は、解釈可能性と分類性能を高め、臨床診断の可能性を強調している。
論文 参考訳(メタデータ) (2024-11-26T13:25:53Z) - Intrapartum Ultrasound Image Segmentation of Pubic Symphysis and Fetal Head Using Dual Student-Teacher Framework with CNN-ViT Collaborative Learning [1.5233179662962222]
pubic symphysis and fetal head (PSFH) の分節は、労働の進行をモニターし、潜在的に引き起こされる合併症を特定するための重要なステップである。
従来の半教師付き学習アプローチは、主に畳み込みニューラルネットワーク(CNN)に基づく統合ネットワークモデルを利用する。
CNN と Transformer を組み合わせた新しいフレームワークである Dual-Student and Teacher Combining CNN (DSTCT) を導入する。
論文 参考訳(メタデータ) (2024-09-11T00:57:31Z) - Real-time guidewire tracking and segmentation in intraoperative x-ray [52.51797358201872]
リアルタイムガイドワイヤ分割と追跡のための2段階のディープラーニングフレームワークを提案する。
第1段階では、ヨロフ5検出器が元のX線画像と合成画像を使って訓練され、ターゲットのガイドワイヤのバウンディングボックスを出力する。
第2段階では、検出された各バウンディングボックスにガイドワイヤを分割するために、新規で効率的なネットワークが提案されている。
論文 参考訳(メタデータ) (2024-04-12T20:39:19Z) - Unified Multi-modal Diagnostic Framework with Reconstruction Pre-training and Heterogeneity-combat Tuning [14.556686415877602]
本稿では,事前トレーニングと下流チューニングを調整した統一医療マルチモーダル診断(UMD)フレームワークを提案する。
具体的には,多段階再構成事前訓練(MR-Pretraining)戦略を提案する。
特に、TD-Calibは、下流データセットの分布に関する事前訓練されたモデルを微調整し、GM-Coordは、異なるモードの動的最適化状況に応じて勾配重みを調整する。
論文 参考訳(メタデータ) (2024-04-09T06:47:44Z) - Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via
Optimization Trajectory Distillation [73.83178465971552]
自動医用画像解析の成功は、大規模かつ専門家による注釈付きトレーニングセットに依存する。
非教師なしドメイン適応(UDA)はラベル付きデータ収集の負担を軽減するための有望なアプローチである。
本稿では,2つの技術的課題に新しい視点から対処する統一的手法である最適化トラジェクトリ蒸留を提案する。
論文 参考訳(メタデータ) (2023-07-27T08:58:05Z) - MMA-RNN: A Multi-level Multi-task Attention-based Recurrent Neural
Network for Discrimination and Localization of Atrial Fibrillation [1.8037893225125925]
本稿では,多段階マルチタスク・アテンションに基づくリカレントニューラルネットワークを提案する。
このモデルは、情報インタラクションを強化し、エラーの蓄積を減らすためのエンドツーエンドフレームワークとして設計されている。
論文 参考訳(メタデータ) (2023-02-07T19:59:55Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - FetReg: Placental Vessel Segmentation and Registration in Fetoscopy
Challenge Dataset [57.30136148318641]
Fetoscopy Laser Photocoagulation はツイン・ツー・ツイン・トランスフュージョン症候群(TTTS)の治療に広く用いられている治療法である
これにより、プロシージャ時間と不完全アブレーションが増加し、持続的なTTTSが生じる可能性がある。
コンピュータ支援による介入は、ビデオモザイクによって胎児の視野を広げ、船体ネットワークのより良い視覚化を提供することによって、これらの課題を克服するのに役立つかもしれない。
本稿では,長期フェトスコープビデオからドリフトフリーモザイクを作成することを目的とした,胎児環境のための汎用的でロバストなセマンティックセマンティックセグメンテーションとビデオモザイクアルゴリズムを開発するための大規模マルチセントデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。