論文の概要: EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy
- arxiv url: http://arxiv.org/abs/2505.15206v1
- Date: Wed, 21 May 2025 07:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.113073
- Title: EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy
- Title(参考訳): EndoVLA: 内視鏡における自律追尾のためのデュアル位相ビジョン・ランゲージ・アクションモデル
- Authors: Chi Kit Ng, Long Bai, Guankun Wang, Yupeng Wang, Huxin Gao, Kun Yuan, Chenhan Jin, Tieyong Zeng, Hongliang Ren,
- Abstract要約: VLA(Vision-Language-Action)モデルは、視覚知覚、言語接地、モーションプランニングをエンドツーエンドのフレームワークに統合する。
EndoVLAは,(1)ポリープ追跡,(2)異常粘膜領域の脱線・追尾,(3)周囲切削時の円形マーカーへの付着の3つのコアタスクを実行する。
- 参考スコア(独自算出の注目度): 26.132684811981143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In endoscopic procedures, autonomous tracking of abnormal regions and following circumferential cutting markers can significantly reduce the cognitive burden on endoscopists. However, conventional model-based pipelines are fragile for each component (e.g., detection, motion planning) requires manual tuning and struggles to incorporate high-level endoscopic intent, leading to poor generalization across diverse scenes. Vision-Language-Action (VLA) models, which integrate visual perception, language grounding, and motion planning within an end-to-end framework, offer a promising alternative by semantically adapting to surgeon prompts without manual recalibration. Despite their potential, applying VLA models to robotic endoscopy presents unique challenges due to the complex and dynamic anatomical environments of the gastrointestinal (GI) tract. To address this, we introduce EndoVLA, designed specifically for continuum robots in GI interventions. Given endoscopic images and surgeon-issued tracking prompts, EndoVLA performs three core tasks: (1) polyp tracking, (2) delineation and following of abnormal mucosal regions, and (3) adherence to circular markers during circumferential cutting. To tackle data scarcity and domain shifts, we propose a dual-phase strategy comprising supervised fine-tuning on our EndoVLA-Motion dataset and reinforcement fine-tuning with task-aware rewards. Our approach significantly improves tracking performance in endoscopy and enables zero-shot generalization in diverse scenes and complex sequential tasks.
- Abstract(参考訳): 内視鏡検査では、異常領域の自律的追跡と周方向切削マーカーの追跡は、内科医の認知負担を著しく減少させる可能性がある。
しかし、従来のモデルベースパイプラインは、各コンポーネント(例えば、検出、動作計画)に対して脆弱であり、手動チューニングが必要であり、高レベルの内視鏡的意図を組み込むのに苦労しているため、様々な場面で一般化が不十分である。
VLA(Vision-Language-Action)モデルは、視覚知覚、言語接地、モーションプランニングをエンドツーエンドのフレームワークに統合し、手動のリカレーションなしで外科医のプロンプトに意味的に適応することで、有望な代替手段を提供する。
その可能性にもかかわらず、VLAモデルをロボット内視鏡に適用することは、消化管(GI)の複雑でダイナミックな解剖学的環境が原因で、独特な課題を呈している。
そこで本研究では,GI介入における連続ロボット用に設計されたEndoVLAを紹介する。
内視鏡画像と外科医が発行する追跡プロンプトが与えられた後,EndoVLAは,(1)ポリープ追跡,(2)異常粘膜領域の脱線・追尾,(3)周囲切削時の円形マーカーへの付着の3つのコアタスクを実行する。
データ不足とドメインシフトに対処するため,我々のEndoVLA-Motionデータセットの教師付き微調整とタスク認識報酬による強化微調整を含む2段階戦略を提案する。
本手法は内視鏡におけるトラッキング性能を大幅に改善し,多様なシーンや複雑なシーケンシャルタスクにおいてゼロショットの一般化を可能にする。
関連論文リスト
- Landmark-Free Preoperative-to-Intraoperative Registration in Laparoscopic Liver Resection [50.388465935739376]
術前の3Dモデルを術中2Dフレームにオーバーレイすることで肝臓の空間解剖を明瞭に把握し,より高い手術成功率を達成することができる。
既存の登録法は解剖学的ランドマークに大きく依存しており、2つの大きな制限に直面している。
本稿では,効果的な自己教師型学習を生かした,目覚ましくない術前・術中登録フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T14:55:57Z) - EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance [79.66329903007869]
本稿では,プローブ誘導のためのモーションアウェアな世界モデリングフレームワークであるEchoWorldを紹介する。
解剖学的な知識と運動によって引き起こされる視覚力学を符号化する。
200以上の定期的なスキャンから100万枚以上の超音波画像で訓練されている。
論文 参考訳(メタデータ) (2025-04-17T16:19:05Z) - Endo-TTAP: Robust Endoscopic Tissue Tracking via Multi-Facet Guided Attention and Hybrid Flow-point Supervision [3.290418382279656]
Endo-TTAPは内視鏡的ビデオにおける組織点追跡のための新しいフレームワークである。
MFGAモジュールは、多スケールフローダイナミクス、DINOv2セマンティック埋め込み、および明示的な動きパターンを相乗して、ポイント位置を共同で予測する。
ステージIは、光学フローグラウンド真理を用いた合成データを用いて不確定閉塞正則化を行う。
ステージIIは、教師なしのフロー一貫性と半教師付き学習と、市販のトラッカーからの洗練された擬似ラベルを組み合わせる。
論文 参考訳(メタデータ) (2025-03-28T13:00:07Z) - Multi-Scale Feature Fusion with Image-Driven Spatial Integration for Left Atrium Segmentation from Cardiac MRI Images [0.0]
本稿では,DINOv2をエンコーダとしてUNetスタイルのデコーダと統合するフレームワークを提案する。
LAScarQS 2022データセットに対する我々のアプローチを検証するとともに、92.3%のDiceと84.1%のIoUスコアで巨大なアーキテクチャの性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-10T16:12:46Z) - Multi-Layer Gaussian Splatting for Immersive Anatomy Visualization [1.0580610673031074]
医用画像の可視化において、CTスキャンのような体積医学データのパストレースは、生命に似た可視化を生成する。
本稿では,CTスキャンの高速かつ静的な中間表現を実現するために,GSを用いた新しい手法を提案する。
本手法は,対象ハードウェアに品質を調整可能な解剖学的構造を保ちながら,インタラクティブなフレームレートを実現する。
論文 参考訳(メタデータ) (2024-10-22T12:56:58Z) - Efficient Multi-View Fusion and Flexible Adaptation to View Missing in Cardiovascular System Signals [4.519437028632205]
深層学習は、心臓血管系(CVS)信号に関する自動多視点融合(MVF)を促進する。
MVFモデルアーキテクチャは、しばしば同じ時間ステップからCVS信号と一致するが、統一された表現に異なる視点を持つ。
本稿では,事前学習したMVFモデルに対して,様々なシナリオに柔軟に対応するためのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:58:59Z) - Real-time guidewire tracking and segmentation in intraoperative x-ray [52.51797358201872]
リアルタイムガイドワイヤ分割と追跡のための2段階のディープラーニングフレームワークを提案する。
第1段階では、ヨロフ5検出器が元のX線画像と合成画像を使って訓練され、ターゲットのガイドワイヤのバウンディングボックスを出力する。
第2段階では、検出された各バウンディングボックスにガイドワイヤを分割するために、新規で効率的なネットワークが提案されている。
論文 参考訳(メタデータ) (2024-04-12T20:39:19Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Inflated 3D Convolution-Transformer for Weakly-supervised Carotid
Stenosis Grading with Ultrasound Videos [12.780908780402516]
自動頸動脈狭窄グレーディング(CSG)のための第1のビデオ分類フレームワークについて紹介する。
弱教師付きCSGのための新しい効果的な映像分類ネットワークを提案する。
本手法は,大容量の頸動脈ビデオデータセットで広く検証されている。
論文 参考訳(メタデータ) (2023-06-05T02:50:06Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。