論文の概要: REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning
- arxiv url: http://arxiv.org/abs/2501.18124v1
- Date: Thu, 30 Jan 2025 03:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:12:59.728973
- Title: REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning
- Title(参考訳): REMOTE:マルチモーダル視覚特徴学習による各種内視鏡のリアルタイムエゴモーショントラッキング
- Authors: Liangjing Shao, Benshuang Chen, Shuting Zhao, Xinrong Chen,
- Abstract要約: 内視鏡のためのリアルタイムエゴモーショントラッキングを実現するための新しいフレームワークを提案する。
相対的なポーズ予測を行うために,マルチモーダル視覚特徴学習ネットワークを提案する。
内視鏡の絶対的なポーズは相対的なポーズに基づいて計算される。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License:
- Abstract: Real-time ego-motion tracking for endoscope is a significant task for efficient navigation and robotic automation of endoscopy. In this paper, a novel framework is proposed to perform real-time ego-motion tracking for endoscope. Firstly, a multi-modal visual feature learning network is proposed to perform relative pose prediction, in which the motion feature from the optical flow, the scene features and the joint feature from two adjacent observations are all extracted for prediction. Due to more correlation information in the channel dimension of the concatenated image, a novel feature extractor is designed based on an attention mechanism to integrate multi-dimensional information from the concatenation of two continuous frames. To extract more complete feature representation from the fused features, a novel pose decoder is proposed to predict the pose transformation from the concatenated feature map at the end of the framework. At last, the absolute pose of endoscope is calculated based on relative poses. The experiment is conducted on three datasets of various endoscopic scenes and the results demonstrate that the proposed method outperforms state-of-the-art methods. Besides, the inference speed of the proposed method is over 30 frames per second, which meets the real-time requirement. The project page is here: \href{https://remote-bmxs.netlify.app}{remote-bmxs.netlify.app}
- Abstract(参考訳): 内視鏡のためのリアルタイムエゴモーショントラッキングは、内視鏡の効率的なナビゲーションとロボットの自動化のための重要なタスクである。
本稿では,内視鏡のためのリアルタイムエゴモーショントラッキングを実現するための新しいフレームワークを提案する。
まず,複数モードの視覚特徴学習ネットワークを提案し,光学的流れからの動作特徴,シーン特徴,関節特徴をそれぞれ抽出して,相対的なポーズ予測を行う。
2つの連続フレームの連結から多次元情報を統合するためのアテンション機構に基づいて、連結画像のチャネル次元の相関情報をより高めることにより、新しい特徴抽出器を設計する。
融合特徴量からより完全な特徴量表現を抽出するために,フレームワークの終端における連結特徴量マップからのポーズ変換を予測するために,新しいポーズデコーダを提案する。
最後に、相対的なポーズに基づいて内視鏡の絶対的なポーズを算出する。
本実験は, 各種内視鏡的シーンの3つのデータセットを用いて実施し, 提案手法が最先端の手法より優れていることを示す。
また,提案手法の推論速度は毎秒30フレーム以上であり,リアルタイム要件を満たす。
プロジェクトページはこちら。 \href{https://remote-bmxs.netlify.app}{remote-bmxs.netlify.app}
関連論文リスト
- LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation [14.152207010509763]
ステレオ画像とテンポラル画像の位置情報を併用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。
我々は3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2024-09-14T08:17:56Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D
Pose Estimation Tracking and Forecasting on a Video Snippet [24.852728097115744]
RGBからの多人数ポーズ理解には、ポーズ推定、トラッキング、動き予測という3つの複雑なタスクが含まれる。
既存の作業の多くは、ひとつのタスクに集中するか、複数のタスクを別々に解決するためのマルチステージアプローチを採用するかのどちらかです。
Snipperは、複数の人物によるポーズ推定、追跡、動き予測を同時に行うための統合されたフレームワークである。
論文 参考訳(メタデータ) (2022-07-09T18:42:14Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Attention-Driven Body Pose Encoding for Human Activity Recognition [0.0]
本稿では,人間の行動認識のための新しいアテンションベースボディポーズコーディングを提案する。
濃縮されたデータは、3次元体の関節位置データを補完し、モデル性能を向上させる。
論文 参考訳(メタデータ) (2020-09-29T22:17:17Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - Human Action Recognition using Local Two-Stream Convolution Neural
Network Features and Support Vector Machines [0.0]
本稿では,ビデオにおける人間の行動認識をシンプルかつ効果的に行う方法を提案する。
提案手法は、最先端の3次元畳み込みニューラルネットワークを用いて局所的な外観と運動の特徴を別々に抽出する。
我々は,SVMの利点を実証的に示すために,3つの共通ベンチマークデータセットを広範囲に評価する。
論文 参考訳(メタデータ) (2020-02-19T17:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。