論文の概要: Bridging Vision and Language for Robust Context-Aware Surgical Point Tracking: The VL-SurgPT Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2511.12026v1
- Date: Sat, 15 Nov 2025 04:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.513721
- Title: Bridging Vision and Language for Robust Context-Aware Surgical Point Tracking: The VL-SurgPT Dataset and Benchmark
- Title(参考訳): ロバスト文脈を考慮した手術点追跡のためのブリッジングビジョンと言語:VL-SurgPTデータセットとベンチマーク
- Authors: Rulin Zhou, Wenlong He, An Wang, Jianhang Zhang, Xuanhui Zeng, Xi Zhang, Chaowei Zhu, Haijun Hu, Hongliang Ren,
- Abstract要約: VL-SurgPTは,手術シーンにおけるポイント状態のテキスト記述と視覚的トラッキングをブリッジする,最初の大規模マルチモーダルデータセットである。
データセットは、組織追跡のための754と、計測器追跡のための154を含む、908のin vivoビデオクリップで構成されている。
視覚的に困難な状況下でのロバスト性を改善するために意味記述を活用するテキスト誘導型トラッキング手法TG-SurgPTを提案する。
- 参考スコア(独自算出の注目度): 10.994136744255544
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate point tracking in surgical environments remains challenging due to complex visual conditions, including smoke occlusion, specular reflections, and tissue deformation. While existing surgical tracking datasets provide coordinate information, they lack the semantic context necessary to understand tracking failure mechanisms. We introduce VL-SurgPT, the first large-scale multimodal dataset that bridges visual tracking with textual descriptions of point status in surgical scenes. The dataset comprises 908 in vivo video clips, including 754 for tissue tracking (17,171 annotated points across five challenging scenarios) and 154 for instrument tracking (covering seven instrument types with detailed keypoint annotations). We establish comprehensive benchmarks using eight state-of-the-art tracking methods and propose TG-SurgPT, a text-guided tracking approach that leverages semantic descriptions to improve robustness in visually challenging conditions. Experimental results demonstrate that incorporating point status information significantly improves tracking accuracy and reliability, particularly in adverse visual scenarios where conventional vision-only methods struggle. By bridging visual and linguistic modalities, VL-SurgPT enables the development of context-aware tracking systems crucial for advancing computer-assisted surgery applications that can maintain performance even under challenging intraoperative conditions.
- Abstract(参考訳): 手術環境における正確な点追跡は、煙の閉塞、特異な反射、組織変形などの複雑な視覚状態のために依然として困難である。
既存の外科的追跡データセットは座標情報を提供するが、追跡障害メカニズムを理解するのに必要な意味的コンテキストは欠如している。
VL-SurgPTは,手術シーンにおけるポイント状態のテキスト記述と視覚的トラッキングをブリッジする,最初の大規模マルチモーダルデータセットである。
データセットは、908のin vivoビデオクリップで構成されており、組織追跡のための754(17,171点)、計器追跡のための154点(詳細なキーポイントアノテーションを備えた7種類の計器タイプ)が含まれている。
我々は,8つの最先端追跡手法を用いて総合的なベンチマークを構築し,意味記述を活用するテキスト誘導追跡手法TG-SurgPTを提案する。
実験結果から,従来の視覚のみの手法が苦戦する視覚的シナリオにおいて,ポイントステータス情報の導入はトラッキング精度と信頼性を著しく向上することが示された。
VL-SurgPTは視覚的・言語的モダリティをブリッジすることにより、手術条件が困難な場合でもパフォーマンスを維持するコンピュータ支援手術アプリケーションを前進させる上で重要なコンテキスト認識トラッキングシステムの開発を可能にする。
関連論文リスト
- When Tracking Fails: Analyzing Failure Modes of SAM2 for Point-Based Tracking in Surgical Videos [0.43981305860983705]
腹腔鏡下胆嚢摘出術ビデオにおけるポイントベーストラッキングの障害モードを系統的に解析した。
以上の結果から, ポイントベーストラッキングは外科的ツールと競合するが, 解剖学的対象には不適合であることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-02T15:06:49Z) - COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking [52.62149024881728]
本稿では,視覚言語(VL)追跡のための一段変圧器融合フレームワークを提案する。
ビデオとそれに対応する言語記述間の相互情報を最大化するコントラストアライメント戦略を導入する。
視覚言語変換器を活用することにより,効率的なマルチモーダル融合・推論機構を確立する。
論文 参考訳(メタデータ) (2025-04-02T03:12:38Z) - Endo-TTAP: Robust Endoscopic Tissue Tracking via Multi-Facet Guided Attention and Hybrid Flow-point Supervision [3.290418382279656]
Endo-TTAPは内視鏡的ビデオにおける組織点追跡のための新しいフレームワークである。
MFGAモジュールは、多スケールフローダイナミクス、DINOv2セマンティック埋め込み、および明示的な動きパターンを相乗して、ポイント位置を共同で予測する。
ステージIは、光学フローグラウンド真理を用いた合成データを用いて不確定閉塞正則化を行う。
ステージIIは、教師なしのフロー一貫性と半教師付き学習と、市販のトラッカーからの洗練された擬似ラベルを組み合わせる。
論文 参考訳(メタデータ) (2025-03-28T13:00:07Z) - Tracking Everything in Robotic-Assisted Surgery [39.62251870446397]
そこで我々は,手術シナリオに対するベンチマーク追跡のための注釈付き手術追跡データセットを提案する。
我々は,このデータセット上で最先端(SOTA)のTAPベースのアルゴリズムを評価し,その限界を明らかにする。
本稿では,新たなトラッキング手法であるSurgMotionを提案し,その課題の解決とトラッキング性能の向上を図る。
論文 参考訳(メタデータ) (2024-09-29T23:06:57Z) - CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools [1.7059333957102913]
既存のデータセットは、外科固有のダイナミックスを捉えるのに失敗した、過度に汎用的な追跡形式に依存している。
外科手術における多クラス多ツール追跡のための特別なデータセットであるCholecTrack20を紹介する。
データセットは20のフル長の手術ビデオからなり、1fpsで注釈付けされ、35Kフレーム以上と65Kラベルのツールインスタンスが生成される。
論文 参考訳(メタデータ) (2023-12-12T15:18:15Z) - AVisT: A Benchmark for Visual Object Tracking in Adverse Visibility [125.77396380698639]
AVisTは、視認性の悪いさまざまなシナリオにおける視覚的トラッキングのためのベンチマークである。
AVisTは、80kの注釈付きフレームを持つ120の挑戦的なシーケンスで構成されており、18の多様なシナリオにまたがっている。
我々は、属性間でのトラッキング性能を詳細に分析し、AVisTで17の人気のトラッカーと最近のトラッカーをベンチマークした。
論文 参考訳(メタデータ) (2022-08-14T17:49:37Z) - Towards Sequence-Level Training for Visual Tracking [60.95799261482857]
本研究は、強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入する。
4つの代表的な追跡モデル、SiamRPN++、SiamAttn、TransT、TrDiMPは、提案手法をトレーニングに取り入れることで一貫して改善されている。
論文 参考訳(メタデータ) (2022-08-11T13:15:36Z) - Visual Object Tracking with Discriminative Filters and Siamese Networks:
A Survey and Outlook [97.27199633649991]
識別相関フィルタ (DCF) とディープシームズネットワーク (SN) が支配的な追跡パラダイムとして出現している。
本調査では,9つのトラッキングベンチマークの結果に基づいて,90以上のDCFとSiameseトラッカーの体系的,徹底的なレビューを行う。
論文 参考訳(メタデータ) (2021-12-06T07:57:10Z) - Benchmarking high-fidelity pedestrian tracking systems for research,
real-time monitoring and crowd control [55.41644538483948]
実生活環境における高忠実な歩行者追跡は,群集動態研究において重要なツールである。
この技術が進歩するにつれて、社会においても益々有用になってきている。
歩行者追跡技術の研究と技術に成功させるためには、正確さの検証とベンチマークが不可欠である。
我々は、プライバシーに配慮した歩行者追跡技術のためのベンチマークスイートをコミュニティのオープンスタンダードに向けて提示し、議論する。
論文 参考訳(メタデータ) (2021-08-26T11:45:26Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。