論文の概要: BREATH-VL: Vision-Language-Guided 6-DoF Bronchoscopy Localization via Semantic-Geometric Fusion
- arxiv url: http://arxiv.org/abs/2601.03713v1
- Date: Wed, 07 Jan 2026 09:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.382739
- Title: BREATH-VL: Vision-Language-Guided 6-DoF Bronchoscopy Localization via Semantic-Geometric Fusion
- Title(参考訳): BREATH-VL:Semantic-Geometric Fusionによる視線誘導型6-DoF気管支鏡像の局在
- Authors: Qingyao Tian, Bingyu Yang, Huai Liao, Xinyan Huang, Junyong Li, Dong Yi, Hongbin Liu,
- Abstract要約: BREATH-VLは,視覚言語モデルからのセマンティックキューと,登録手法からの幾何情報を統合し,正確な6-DoFポーズ推定を行うハイブリッドフレームワークである。
これに基づいて、BREATH-VLは、最先端の視覚のみのローカライゼーション法を精度と一般化の両方で上回り、翻訳誤差を最良性能のベースラインと比較して25.5%削減する。
- 参考スコア(独自算出の注目度): 7.382475458362566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have recently shown remarkable performance in navigation and localization tasks by leveraging large-scale pretraining for semantic understanding. However, applying VLMs to 6-DoF endoscopic camera localization presents several challenges: 1) the lack of large-scale, high-quality, densely annotated, and localization-oriented vision-language datasets in real-world medical settings; 2) limited capability for fine-grained pose regression; and 3) high computational latency when extracting temporal features from past frames. To address these issues, we first construct BREATH dataset, the largest in-vivo endoscopic localization dataset to date, collected in the complex human airway. Building on this dataset, we propose BREATH-VL, a hybrid framework that integrates semantic cues from VLMs with geometric information from vision-based registration methods for accurate 6-DoF pose estimation. Our motivation lies in the complementary strengths of both approaches: VLMs offer generalizable semantic understanding, while registration methods provide precise geometric alignment. To further enhance the VLM's ability to capture temporal context, we introduce a lightweight context-learning mechanism that encodes motion history as linguistic prompts, enabling efficient temporal reasoning without expensive video-level computation. Extensive experiments demonstrate that the vision-language module delivers robust semantic localization in challenging surgical scenes. Building on this, our BREATH-VL outperforms state-of-the-art vision-only localization methods in both accuracy and generalization, reducing translational error by 25.5% compared with the best-performing baseline, while achieving competitive computational latency.
- Abstract(参考訳): 視覚言語モデル(VLM)は近年,意味理解に大規模な事前学習を活用することで,ナビゲーションや局所化タスクにおいて顕著な性能を示した。
しかし、VLMを6-DoF内視鏡カメラのローカライゼーションに適用することは、いくつかの課題を呈している。
1) 現実の医療環境における大規模・高品質・高度に注釈付き・局所化指向の視覚言語データセットの欠如。
2) きめ細かいポーズ退行能力の制限,及び
3)過去のフレームから時間的特徴を抽出する場合,高い計算遅延が生じる。
これらの問題に対処するために、我々はまず、複雑な人気道で収集された、これまでで最大の生体内内視鏡像定位データセットであるBREATHデータセットを構築した。
本データセットをベースとしたBREATH-VLは,VLMのセマンティックキューと視覚に基づく登録手法の幾何学的情報を統合し,正確な6-DoFポーズ推定を行うハイブリッドフレームワークである。
VLMは一般化可能な意味理解を提供し、登録法は正確な幾何学的アライメントを提供する。
時間的文脈を捕捉するVLMの能力をさらに強化するために,動作履歴を言語的プロンプトとしてエンコードする軽量な文脈学習機構を導入し,高額なビデオレベルの計算を行うことなく,効率的な時間的推論を可能にする。
広汎な実験により、視覚言語モジュールは、困難な手術シーンにおいて堅牢なセマンティックローカライゼーションを提供することが示された。
これに基づいて、BREATH-VLは、最先端のビジョンのみのローカライズ手法を精度と一般化の両方で上回り、最適性能のベースラインと比較して変換誤差を25.5%削減し、競合計算レイテンシを達成します。
関連論文リスト
- VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs [13.486495756813078]
VLM(Vision-Language Models)は、高レベルのシーン理解において優れるが、精密なローカライゼーションを必要とする微粒な知覚タスクに重点を置いている。
VLM-FO1は、オブジェクト中心の知覚を堅牢な特徴検索タスクに再フレーミングすることで、この制限を克服する新しいフレームワークである。
本手法は,プリトレーニング済みのVLMと統合したプラグイン・アンド・プレイモジュールとして動作する。
論文 参考訳(メタデータ) (2025-09-30T08:10:56Z) - Hierarchical Contextual Grounding LVLM: Enhancing Fine-Grained Visual-Language Understanding with Robust Grounding [0.3262230127283452]
Hierarchical Contextual Grounding LVLM(HCG-LVLM)は、人間の粗い認知処理を模倣する新しいアーキテクチャである。
本モデルでは, より精度が高く, 幻覚を著しく低減し, 階層設計の有効性を検証した。
論文 参考訳(メタデータ) (2025-08-23T09:57:52Z) - STER-VLM: Spatio-Temporal With Enhanced Reference Vision-Language Models [0.0]
本稿では, VLMの性能を向上させる計算効率の高いフレームワーク, STER-VLMを紹介する。
WTS citekong2024wts と BDD citeBDD データセットの実験結果は、セマンティック・リッチネスとトラフィックシーンの解釈において大きな進歩を示している。
私たちのフレームワークは、AI City Challenge 2025 Track 2で、十分なテストスコア55.655で検証されています。
論文 参考訳(メタデータ) (2025-08-19T03:03:29Z) - Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。