論文の概要: DualTrack: Sensorless 3D Ultrasound needs Local and Global Context
- arxiv url: http://arxiv.org/abs/2509.09530v1
- Date: Thu, 11 Sep 2025 15:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.441626
- Title: DualTrack: Sensorless 3D Ultrasound needs Local and Global Context
- Title(参考訳): DualTrack:センサーレス3D超音波はローカルとグローバルのコンテキストを必要とする
- Authors: Paul F. R. Wilson, Matteo Ronchetti, Rüdiger Göbl, Viktoria Markova, Sebastian Rosenzweig, Raphael Prevost, Parvin Mousavi, Oliver Zettinig,
- Abstract要約: 3次元超音波(US)は従来の2D画像よりも多くの臨床的利点があるが、従来の3Dシステムのコストと複雑さによって広く採用されている。
センサーレス3DUSは、ディープラーニングを使って2DUS画像の連続から3Dプローブ軌道を推定する。
特徴抽出のスケールに特化して分離された局所および大域的なエンコーダを利用する新しいデュアルエンコーダアーキテクチャであるDualTrackを提案する。
- 参考スコア(独自算出の注目度): 1.6151730487640348
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Three-dimensional ultrasound (US) offers many clinical advantages over conventional 2D imaging, yet its widespread adoption is limited by the cost and complexity of traditional 3D systems. Sensorless 3D US, which uses deep learning to estimate a 3D probe trajectory from a sequence of 2D US images, is a promising alternative. Local features, such as speckle patterns, can help predict frame-to-frame motion, while global features, such as coarse shapes and anatomical structures, can situate the scan relative to anatomy and help predict its general shape. In prior approaches, global features are either ignored or tightly coupled with local feature extraction, restricting the ability to robustly model these two complementary aspects. We propose DualTrack, a novel dual-encoder architecture that leverages decoupled local and global encoders specialized for their respective scales of feature extraction. The local encoder uses dense spatiotemporal convolutions to capture fine-grained features, while the global encoder utilizes an image backbone (e.g., a 2D CNN or foundation model) and temporal attention layers to embed high-level anatomical features and long-range dependencies. A lightweight fusion module then combines these features to estimate the trajectory. Experimental results on a large public benchmark show that DualTrack achieves state-of-the-art accuracy and globally consistent 3D reconstructions, outperforming previous methods and yielding an average reconstruction error below 5 mm.
- Abstract(参考訳): 3次元超音波(US)は従来の2D画像よりも多くの臨床的利点があるが、従来の3Dシステムのコストと複雑さによって広く採用されている。
センサーレス3DUSは、ディープラーニングを使って2DUS画像の連続から3Dプローブ軌道を推定する。
スペックルパターンのような局所的な特徴はフレーム間の動きを予測するのに役立つが、粗い形状や解剖学的構造のようなグローバルな特徴は解剖学と比較してスキャンを飽和させ、一般的な形状を予測するのに役立つ。
従来のアプローチでは、グローバルな機能は無視されるか、あるいはローカルな特徴抽出と密結合され、これら2つの相補的な側面を堅牢にモデル化する能力を制限する。
特徴抽出のスケールに特化して分離された局所およびグローバルエンコーダを利用する新しいデュアルエンコーダアーキテクチャであるDualTrackを提案する。
局所エンコーダは微細な特徴を捉えるために高密度な時空間畳み込みを使用し、一方グローバルエンコーダは画像バックボーン(例えば2D CNNやファンデーションモデル)と時間的注意層を使用して、高レベルの解剖学的特徴と長距離依存関係を埋め込む。
軽量な融合モジュールがこれらの特徴を組み合わせて軌道を推定する。
大規模な公開ベンチマーク実験の結果、DualTrackは最先端の精度と一貫した3次元再構成を実現し、従来の手法より優れ、平均復元誤差が5mm未満であることが判明した。
関連論文リスト
- Global-Aware Monocular Semantic Scene Completion with State Space Models [25.621011183332094]
Monocular Semantic Scene Completion (MonoSSC)は、単一の画像から3D環境を再構成し、解釈する。
既存の手法は、しばしば畳み込みネットワーク(CNN)の局所受容領域によって制約される。
GA-MonoSSCは2次元画像領域と3次元空間の両方のグローバルコンテキストを効果的にキャプチャするMonoSSCのハイブリッドアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-09T11:55:40Z) - Enhancing Free-hand 3D Photoacoustic and Ultrasound Reconstruction using Deep Learning [3.8426872518410997]
本研究では,携帯型光音響・超音波(PAUS)画像における3次元再構成を支援するため,グローバルローカル自己保持モジュール(MoGLo-Net)を用いたモーションベース学習ネットワークを提案する。
MoGLo-Netは、連続した超音波画像内の完全に発達したスペックル領域や高発癌組織領域などの臨界領域を利用して、運動パラメータを正確に推定する。
論文 参考訳(メタデータ) (2025-02-05T11:59:23Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。