Fugu-MT 論文翻訳(概要): Self-Supervised Monocular Depth and Ego-Motion Estimation in Endoscopy: Appearance Flow to the Rescue

論文の概要: Self-Supervised Monocular Depth and Ego-Motion Estimation in Endoscopy: Appearance Flow to the Rescue

arxiv url: http://arxiv.org/abs/2112.08122v1
Date: Wed, 15 Dec 2021 13:51:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-16 14:36:39.446527
Title: Self-Supervised Monocular Depth and Ego-Motion Estimation in Endoscopy: Appearance Flow to the Rescue
Title（参考訳）: 内視鏡検査における自己監督単分子深度とエゴ運動推定:レスキューに現れる流れ
Authors: Shuwei Shao, Zhongcai Pei, Weihai Chen, Wentao Zhu, Xingming Wu, Dianmin Sun, Baochang Zhang
Abstract要約: 単眼ビデオから深度とエゴモーションを計算するために,自己教師付き学習技術が応用されている。本研究では,明るさの不整合問題に対処するため,外観フローと呼ばれる新しい概念を導入する。我々は,単眼深度と自我運動を同時に推定する統合的な自己監督フレームワークを構築した。
参考スコア（独自算出の注目度）: 38.168759071532676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, self-supervised learning technology has been applied to calculate depth and ego-motion from monocular videos, achieving remarkable performance in autonomous driving scenarios. One widely adopted assumption of depth and ego-motion self-supervised learning is that the image brightness remains constant within nearby frames. Unfortunately, the endoscopic scene does not meet this assumption because there are severe brightness fluctuations induced by illumination variations, non-Lambertian reflections and interreflections during data collection, and these brightness fluctuations inevitably deteriorate the depth and ego-motion estimation accuracy. In this work, we introduce a novel concept referred to as appearance flow to address the brightness inconsistency problem. The appearance flow takes into consideration any variations in the brightness pattern and enables us to develop a generalized dynamic image constraint. Furthermore, we build a unified self-supervised framework to estimate monocular depth and ego-motion simultaneously in endoscopic scenes, which comprises a structure module, a motion module, an appearance module and a correspondence module, to accurately reconstruct the appearance and calibrate the image brightness. Extensive experiments are conducted on the SCARED dataset and EndoSLAM dataset, and the proposed unified framework exceeds other self-supervised approaches by a large margin. To validate our framework's generalization ability on different patients and cameras, we train our model on SCARED but test it on the SERV-CT and Hamlyn datasets without any fine-tuning, and the superior results reveal its strong generalization ability. Code will be available at: \url{https://github.com/ShuweiShao/AF-SfMLearner}.
Abstract（参考訳）: 近年,単眼映像からの奥行きと自我運動の算出に自己教師付き学習技術が応用され,自動運転シナリオにおいて顕著な性能が得られた。深度とエゴモーションによる自己教師学習の仮定として広く採用されているのは、画像の明るさが近くのフレーム内で一定であることである。残念なことに,光度変動,非ランバート反射,反射による輝度変動が激しいため,内視鏡的シーンではこの仮定を満たさないため,これらの輝度変動は必然的に深さや自我運動推定精度を低下させる。本研究では,輝度不整合問題に対処するために,外観フローと呼ばれる新しい概念を導入する。出現フローは明るさパターンの変動を考慮に入れ、一般化されたダイナミックイメージ制約を開発することができる。さらに、構造モジュール、運動モジュール、外観モジュール、対応モジュールからなる内視鏡シーンにおいて、単眼深度とエゴモーションを同時に推定するための統一された自己教師付きフレームワークを構築し、外観を正確に再構成し、画像輝度を校正する。 scaredデータセットとendoslamデータセットで広範な実験が行われ、提案された統一フレームワークは、他の自己監視アプローチを大きく超えている。異なる患者やカメラでフレームワークの一般化能力を検証するために、我々は怖がりながらモデルをトレーニングするが、微調整なしでserv-ctとhamlynデータセットでテストし、優れた結果はその強力な一般化能力を明らかにする。コードは次の通り。 \url{https://github.com/ShuweiShao/AF-SfMLearner}。

関連論文リスト

Revealing Latent Information: A Physics-inspired Self-supervised Pre-training Framework for Noisy and Sparse Events [25.348660233701708]
イベントカメラは、高時間分解能と広ダイナミックレンジでデータを記録する。イベントデータは本質的にスパースでノイズが多く、主に明るさの変化を反映している。本稿では,イベントデータ中の潜伏情報を完全に明らかにする自己教師付き事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-07T15:38:36Z)
Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images [1.1084686909647639]
内視鏡的シーンに適した自己教師付き単眼深度推定ネットワークを提案する。既存の方法は正確ではあるが、通常は一貫した照明を仮定する。これらの変化は、誤った幾何学的解釈と信頼できない自己監督信号をもたらす。
論文参考訳（メタデータ） (2025-04-24T14:12:57Z)
Dynamic Brightness Adaptation for Robust Multi-modal Image Fusion [53.72174230024836]
現実のシナリオにおける可視画像は、動的環境の明るさ変動の影響を受け、テクスチャ劣化を引き起こす。動的輝度変動に拘わらず、頑健な画像融合を実現するBrightness Adaptive Multimodal dynamic fusion framework (BA-Fusion)を提案する。本手法は,多モード画像情報と視覚的忠実度を維持するための最先端手法を超越し,明るさの異なるレベルにおいて顕著な堅牢性を示す。
論文参考訳（メタデータ） (2024-11-07T13:31:07Z)
SelfOdom: Self-supervised Egomotion and Depth Learning via Bi-directional Coarse-to-Fine Scale Recovery [12.791122117651273]
SelfOdomは、単眼画像からポーズと深さの推定を学習するための、自己教師付きデュアルネットワークフレームワークである。 2段階のプロセスでメートル法スケールを回復できる新しい粗大なトレーニング戦略を導入する。私たちのモデルは、夜間の難易度を含む通常の照明条件と難易度の両方で優れています。
論文参考訳（メタデータ） (2022-11-16T13:36:19Z)
Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文参考訳（メタデータ） (2022-07-11T07:50:22Z)
SMUDLP: Self-Teaching Multi-Frame Unsupervised Endoscopic Depth Estimation with Learnable Patchmatch [25.35009126980672]
教師なし単分子深度推定モデルは、訓練期間中に隣接するフレームを監視信号として利用する。時間的相関フレームは、手術ナビゲーションなどの多くの臨床応用のために、推論時にも利用可能である。 SMUDLPは,多フレーム単眼の内視鏡的深度推定のための,新規かつ教師なしのパラダイムである。
論文参考訳（メタデータ） (2022-05-30T12:11:03Z)
Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文参考訳（メタデータ） (2022-04-21T14:40:32Z)
Self-supervised Visual-LiDAR Odometry with Flip Consistency [7.883162238852467]
自己監督型視覚ライダー・オドメトリー(Self-VLO)フレームワークを提案する。 3dlidarポイントから投影された単眼画像とスパース深度マップの両方を入力として取得する。エンドツーエンドの学習方法でポーズと深さの推定を生成する。
論文参考訳（メタデータ） (2021-01-05T02:42:59Z)
SIR: Self-supervised Image Rectification via Seeing the Same Scene from Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文参考訳（メタデータ） (2020-11-30T08:23:25Z)
Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文参考訳（メタデータ） (2020-09-16T14:35:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。