論文の概要: REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning
- arxiv url: http://arxiv.org/abs/2501.18124v2
- Date: Sun, 02 Feb 2025 14:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 12:43:35.032341
- Title: REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning
- Title(参考訳): REMOTE:マルチモーダル視覚特徴学習による各種内視鏡のリアルタイムエゴモーショントラッキング
- Authors: Liangjing Shao, Benshuang Chen, Shuting Zhao, Xinrong Chen,
- Abstract要約: 内視鏡のためのリアルタイムエゴモーショントラッキングを実現するための新しいフレームワークを提案する。
相対的なポーズ予測を行うために,マルチモーダル視覚特徴学習ネットワークを提案する。
内視鏡の絶対的なポーズは相対的なポーズに基づいて計算される。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License:
- Abstract: Real-time ego-motion tracking for endoscope is a significant task for efficient navigation and robotic automation of endoscopy. In this paper, a novel framework is proposed to perform real-time ego-motion tracking for endoscope. Firstly, a multi-modal visual feature learning network is proposed to perform relative pose prediction, in which the motion feature from the optical flow, the scene features and the joint feature from two adjacent observations are all extracted for prediction. Due to more correlation information in the channel dimension of the concatenated image, a novel feature extractor is designed based on an attention mechanism to integrate multi-dimensional information from the concatenation of two continuous frames. To extract more complete feature representation from the fused features, a novel pose decoder is proposed to predict the pose transformation from the concatenated feature map at the end of the framework. At last, the absolute pose of endoscope is calculated based on relative poses. The experiment is conducted on three datasets of various endoscopic scenes and the results demonstrate that the proposed method outperforms state-of-the-art methods. Besides, the inference speed of the proposed method is over 30 frames per second, which meets the real-time requirement. The project page is here: remote-bmxs.netlify.app
- Abstract(参考訳): 内視鏡のためのリアルタイムエゴモーショントラッキングは、内視鏡の効率的なナビゲーションとロボットの自動化のための重要なタスクである。
本稿では,内視鏡のためのリアルタイムエゴモーショントラッキングを実現するための新しいフレームワークを提案する。
まず,複数モードの視覚特徴学習ネットワークを提案し,光学的流れからの動作特徴,シーン特徴,関節特徴をそれぞれ抽出して,相対的なポーズ予測を行う。
2つの連続フレームの連結から多次元情報を統合するためのアテンション機構に基づいて、連結画像のチャネル次元の相関情報をより高めることにより、新しい特徴抽出器を設計する。
融合特徴量からより完全な特徴量表現を抽出するために,フレームワークの終端における連結特徴量マップからのポーズ変換を予測するために,新しいポーズデコーダを提案する。
最後に、相対的なポーズに基づいて内視鏡の絶対的なポーズを算出する。
本実験は, 各種内視鏡的シーンの3つのデータセットを用いて実施し, 提案手法が最先端の手法より優れていることを示す。
また,提案手法の推論速度は毎秒30フレーム以上であり,リアルタイム要件を満たす。
プロジェクトのページはこちら。 remote-bmxs.netlify.app
関連論文リスト
- H-Net: A Multitask Architecture for Simultaneous 3D Force Estimation and Stereo Semantic Segmentation in Intracardiac Catheters [0.0]
視覚ベースのディープラーニングモデルは、触覚と視覚の両方をセンサレスで提供することができる。
カテーテルを2つの異なる角度から同時にセグメント化できる包括的アーキテクチャが欠如している。
本研究は,軽量なマルチインプット・マルチアウトプット・エンコーダ・デコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-31T15:55:13Z) - LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation [14.152207010509763]
ステレオ画像とテンポラル画像の位置情報を併用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。
我々は3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2024-09-14T08:17:56Z) - DD-VNB: A Depth-based Dual-Loop Framework for Real-time Visually Navigated Bronchoscopy [5.8722774441994074]
リアルタイムビジュアルナビゲート気管支鏡(DD-VNB)のためのDepth-based Dual-Loopフレームワークを提案する。
DD-VNBフレームワークは、深さ推定とデュアルループローカライゼーションという2つの重要なモジュールを統合している。
患者からのファントムデータとin-vivoデータを用いた実験により,本フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-03-04T02:29:02Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Attention-Driven Body Pose Encoding for Human Activity Recognition [0.0]
本稿では,人間の行動認識のための新しいアテンションベースボディポーズコーディングを提案する。
濃縮されたデータは、3次元体の関節位置データを補完し、モデル性能を向上させる。
論文 参考訳(メタデータ) (2020-09-29T22:17:17Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。