論文の概要: Towards Real-Time Autonomous Navigation: Transformer-Based Catheter Tip Tracking in Fluoroscopy
- arxiv url: http://arxiv.org/abs/2605.14253v1
- Date: Thu, 14 May 2026 01:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.568395
- Title: Towards Real-Time Autonomous Navigation: Transformer-Based Catheter Tip Tracking in Fluoroscopy
- Title(参考訳): リアルタイム自律ナビゲーションを目指して : 蛍光管内変圧器を用いたカテーテルチップ追跡
- Authors: Harry Robertshaw, Yanghe Hao, Weiyuan Deng, Benjamin Jackson, S. M. Hadi Sadati, Nikola Fischer, Tom Vercauteren, Alejandro Granados, Thomas C. Booth,
- Abstract要約: 本研究の目的は, 実時間カテーテル先端追跡パイプラインの開発と評価である。
U-Net、U-Net+Transformer、SegFormerなどのディープラーニングセグメンテーションモデルをトレーニングし、ベンチマークした。
2級のSegFormerは平均絶対誤差4.44mm、U-Net(4.60mm)、U-Net+Transformer(6.20mm)、および3級モデル(5.19-7.74mm)を上回った。
- 参考スコア(独自算出の注目度): 35.565354067805835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: Mechanical thrombectomy (MT) improves stroke outcomes, but is limited by a lack of local treatment access. Widespread distribution of reinforcement learning (RL)-based robotic systems can be used to alleviate this challenge through autonomous navigation, but current RL methods require live device tip coordinate tracking to function. This paper aims to develop and evaluate a real-time catheter tip tracking pipeline under fluoroscopy, addressing challenges such as low contrast, noise, and device occlusion. Methods: A multi-threaded pipeline was designed, incorporating frame reading, preprocessing, inference, and post-processing. Deep learning segmentation models, including U-Net, U-Net+Transformer, and SegFormer, were trained and benchmarked using two-class and three-class formulations. Post-processing involved two-step component filtering, one-pixel medial skeletonization, and greedy arc-length path following with contour fall-back. Results: On manually-labeled moderate complexity fluoroscopic video data, the two-class SegFormer achieved a mean absolute error of 4.44 mm, outperforming U-Net (4.60 mm), U-Net+Transformer (6.20 mm) and all three-class models (5.19-7.74 mm). On segmentation benchmarks, the system exceeded state-of-the-art CathAction results with improvements of up to +5% in Dice scores for three-segmentation. Conclusion: The results demonstrate that the proposed multi-threaded tracking framework maintains stable performance under challenging imaging conditions, outperforming prior benchmarks, while providing a reliable and efficient foundation for RL-based autonomous MT navigation.
- Abstract(参考訳): 目的: 機械的血栓摘出術 (MT) は脳卒中を改善させるが, 局所的な治療アクセスの欠如により制限される。
強化学習(RL)に基づくロボットシステムの広範な分布は、自律的なナビゲーションを通じてこの課題を軽減するために使用できるが、現在のRL手法では、機能するためにデバイス先端座標追跡が必要である。
本研究の目的は,低コントラスト,ノイズ,デバイス閉塞といった課題に対処するため,フルオロスコープによるリアルタイムカテーテル先端追跡パイプラインの開発と評価である。
メソッド: フレーム読み込み、前処理、推論、後処理を組み込んだマルチスレッドパイプラインが設計された。
U-Net、U-Net+Transformer、SegFormerといったディープラーニングセグメンテーションモデルは、2クラスと3クラスの定式化を使用してトレーニングされ、ベンチマークされた。
後処理では, 2段階の成分フィルタリング, 1ピクセルの中間骨格化, 輪郭転倒に伴うグリード状弧長経路が関与した。
結果:手動ラベルによる中等度複雑性フルオロスコープビデオデータでは、2種類のSegFormerは平均絶対誤差が4.44mm、U-Net(4.60mm)、U-Net+Transformer(6.20mm)、および3種類のモデル(5.19-7.74mm)を上回った。
セグメンテーションのベンチマークでは、このシステムは最先端のCathAction結果を超え、3つのセグメンテーションのためのDiceスコアの最大5%の改善を実現した。
結論: 提案したマルチスレッド追跡フレームワークは,従来のベンチマークよりも高い精度で,かつRLベースの自律MTナビゲーションの信頼性と効率的な基盤を提供するとともに,困難な撮像条件下での安定した性能を維持していることを示す。
関連論文リスト
- Trajectory-Consistent Flow Matching for Robust Visuomotor Policy Learning [1.7616042687330642]
フローマッチングポリシは、ノイズを動作に伝達する連続速度場を学習し、ロボット操作のための決定論的推論を可能にする。
標準トレーニングは、軌道の複雑な誤りを引き起こすミスマッチである、そのフィールドの数値的な統合を必要とする間、ポイントワイドな速度目標を最適化する。
本研究では,(1)全時間間隔にわたって時間的監督を均一に行う補助的整流流速度回帰,(2)軌道上の速度場の統合的変位を監督する多段階軌道整合性トレーニング,(3)時間的滑らかさを強制する速度場正規化の4つの補完策を提案する。
論文 参考訳(メタデータ) (2026-05-08T21:44:10Z) - Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。
PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。
3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:21:15Z) - PI-NAIM: Path-Integrated Neural Adaptive Imputation Model [0.0]
本稿では,新しい二重パスアーキテクチャであるPI-NAIMを提案する。
1)低損失サンプルを効率的な統計計算(MICE)と複雑なパターンに誘導するインテリジェントパスルーティングを、時間的分析を伴う強力なニューラルネットワーク(GAIN)に統合する。
MIMIC-IIIとマルチモーダルベンチマークの実験では、最先端の性能を示し、RMSEは0.108、下流タスクは0.812のAUROCで大幅に向上した。
論文 参考訳(メタデータ) (2025-11-14T22:38:40Z) - Optimized CNNs for Rapid 3D Point Cloud Object Recognition [2.6462438855724826]
本研究では,畳み込みニューラルネットワーク(CNN)を用いて3次元点雲内の物体を効率的に検出する手法を提案する。
提案手法では特徴中心の投票機構を採用して,入力データで観測される典型的な疎度を生かした畳み込み層を構築する。
Vote3Deepモデルは、わずか3層で、レーザーのみのアプローチとレーザービジョンを組み合わせた手法の両方において、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2024-12-03T21:42:30Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - PAENet: A Progressive Attention-Enhanced Network for 3D to 2D Retinal
Vessel Segmentation [0.0]
光コヒーレンス・トモグラフィー(OCTA)画像では3次元から2次元の網膜血管セグメンテーションは難しい問題である。
本稿では,多機能表現を抽出するアテンション機構に基づくプログレッシブ・アテンション・エンハンスメント・ネットワーク(PAENet)を提案する。
提案アルゴリズムは,従来の手法と比較して最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-26T10:27:25Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。