論文の概要: A Vision-Language-Action Model for Adaptive Ultrasound-Guided Needle Insertion and Needle Tracking
- arxiv url: http://arxiv.org/abs/2604.20347v1
- Date: Wed, 22 Apr 2026 08:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.047741
- Title: A Vision-Language-Action Model for Adaptive Ultrasound-Guided Needle Insertion and Needle Tracking
- Title(参考訳): 適応型超音波誘導針挿入と針追跡のためのビジョン・ランゲージ・アクションモデル
- Authors: Yuelin Zhang, Qingpeng Ding, Longxiang Tang, Chengyu Fang, Shing Shin Cheng,
- Abstract要約: ロボット超音波(RUS)システム上での針挿入と追跡を適応的かつ自動化するためのビジョン・ランゲージ・アクション(VLA)モデルを提案する。
リアルタイムとエンドツーエンドのトラッキングを実現するために,クロスディープス・フュージョン(CDF)トラッキングヘッドを提案する。
針追跡と挿入の両方の実験により,本手法は常に最先端のトラッカーや手動操作よりも優れていた。
- 参考スコア(独自算出の注目度): 12.14041530940066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ultrasound (US)-guided needle insertion is a critical yet challenging procedure due to dynamic imaging conditions and difficulties in needle visualization. Many methods have been proposed for automated needle insertion, but they often rely on hand-crafted pipelines with modular controllers, whose performance degrades in challenging cases. In this paper, a Vision-Language-Action (VLA) model is proposed for adaptive and automated US-guided needle insertion and tracking on a robotic ultrasound (RUS) system. This framework provides a unified approach to needle tracking and needle insertion control, enabling real-time, dynamically adaptive adjustment of insertion based on the obtained needle position and environment awareness. To achieve real-time and end-to-end tracking, a Cross-Depth Fusion (CDF) tracking head is proposed, integrating shallow positional and deep semantic features from the large-scale vision backbone. To adapt the pretrained vision backbone for tracking tasks, a Tracking-Conditioning (TraCon) register is introduced for parameter-efficient feature conditioning. After needle tracking, an uncertainty-aware control policy and an asynchronous VLA pipeline are presented for adaptive needle insertion control, ensuring timely decision-making for improved safety and outcomes. Extensive experiments on both needle tracking and insertion show that our method consistently outperforms state-of-the-art trackers and manual operation, achieving higher tracking accuracy, improved insertion success rates, and reduced procedure time, highlighting promising directions for RUS-based intelligent intervention.
- Abstract(参考訳): 超音波ガイド下針挿入は, 動的撮像条件と針の可視化の困難さにより, 極めて困難である。
自動針挿入のための多くの方法が提案されているが、しばしば手作りのパイプラインとモジュラーコントローラに頼っている。
本稿では,ロボット超音波(RUS)システム上での針挿入と追跡を適応的かつ自動化するためのビジョン・ランゲージ・アクション(VLA)モデルを提案する。
このフレームワークは、針追跡と針挿入制御に対する統一的なアプローチを提供し、得られた針の位置と環境認識に基づいて、リアルタイムで動的に挿入の調整を可能にする。
リアルタイムとエンドツーエンドのトラッキングを実現するために,大規模視覚バックボーンから浅い位置と深い意味的特徴を統合するクロスディープス・フュージョン(CDF)トラッキングヘッドを提案する。
タスク追跡のために予め訓練された視覚バックボーンに適応するために、パラメータ効率の良い特徴条件付けのためにトラッキング・コンディショニング(TraCon)レジスタを導入する。
ニードルトラッキング後、アダプティブニードル挿入制御のための不確実性認識制御ポリシーと非同期VLAパイプラインが提示され、安全と結果を改善するためのタイムリーな意思決定が保証される。
針追跡法と挿入法の両方の広範囲な実験により,本手法は最先端のトラッカーと手動操作を一貫して上回り,追跡精度の向上,挿入成功率の向上,手術時間短縮を実現し,RASによる知的介入の有望な方向を強調した。
関連論文リスト
- ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features [36.97601609064981]
本研究では,針検出のためのVibNetの拡張であるConVibNetについて述べる。
連続するフレーム間の動き相関を明示的に活用する新たな交叉・差分損失を導入する。
論文 参考訳(メタデータ) (2026-03-01T15:16:25Z) - PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement [45.37105164372227]
SurgAtt-Trackerは外科的注意をしっかり追跡する総合的なフレームワークである。
複数の外科的データセットの実験は、SurgAtt-Trackerが一貫して最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-02-24T07:30:51Z) - AR Surgical Navigation with Surface Tracing: Comparing In-Situ Visualization with Tool-Tracking Guidance for Neurosurgical Applications [0.0]
本研究では,AR誘導を利用して解剖学的目標を登録し,リアルタイムな計器ナビゲーションを行う新しい手法を提案する。
新規な表面追跡法により標的位置を患者に登録し、リアルタイム赤外線ツールトラッキングを用いてカテーテル配置を支援する。
論文 参考訳(メタデータ) (2025-08-14T11:46:30Z) - EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy [26.132684811981143]
VLA(Vision-Language-Action)モデルは、視覚知覚、言語接地、モーションプランニングをエンドツーエンドのフレームワークに統合する。
EndoVLAは,(1)ポリープ追跡,(2)異常粘膜領域の脱線・追尾,(3)周囲切削時の円形マーカーへの付着の3つのコアタスクを実行する。
論文 参考訳(メタデータ) (2025-05-21T07:35:00Z) - EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance [79.66329903007869]
本稿では,プローブ誘導のためのモーションアウェアな世界モデリングフレームワークであるEchoWorldを紹介する。
解剖学的な知識と運動によって引き起こされる視覚力学を符号化する。
200以上の定期的なスキャンから100万枚以上の超音波画像で訓練されている。
論文 参考訳(メタデータ) (2025-04-17T16:19:05Z) - Endo-TTAP: Robust Endoscopic Tissue Tracking via Multi-Facet Guided Attention and Hybrid Flow-point Supervision [3.290418382279656]
Endo-TTAPは内視鏡的ビデオにおける組織点追跡のための新しいフレームワークである。
MFGAモジュールは、多スケールフローダイナミクス、DINOv2セマンティック埋め込み、および明示的な動きパターンを相乗して、ポイント位置を共同で予測する。
ステージIは、光学フローグラウンド真理を用いた合成データを用いて不確定閉塞正則化を行う。
ステージIIは、教師なしのフロー一貫性と半教師付き学習と、市販のトラッカーからの洗練された擬似ラベルを組み合わせる。
論文 参考訳(メタデータ) (2025-03-28T13:00:07Z) - Real-time guidewire tracking and segmentation in intraoperative x-ray [52.51797358201872]
リアルタイムガイドワイヤ分割と追跡のための2段階のディープラーニングフレームワークを提案する。
第1段階では、ヨロフ5検出器が元のX線画像と合成画像を使って訓練され、ターゲットのガイドワイヤのバウンディングボックスを出力する。
第2段階では、検出された各バウンディングボックスにガイドワイヤを分割するために、新規で効率的なネットワークが提案されている。
論文 参考訳(メタデータ) (2024-04-12T20:39:19Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Learning Compliance Adaptation in Contact-Rich Manipulation [81.40695846555955]
本稿では,コンタクトリッチタスクに必要な力プロファイルの予測モデルを学習するための新しいアプローチを提案する。
このアプローチは、双方向Gated Recurrent Units (Bi-GRU) に基づく異常検出と適応力/インピーダンス制御を組み合わせたものである。
論文 参考訳(メタデータ) (2020-05-01T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。