論文の概要: Structure-preserving Image Translation for Depth Estimation in Colonoscopy Video
- arxiv url: http://arxiv.org/abs/2408.10153v1
- Date: Mon, 19 Aug 2024 17:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:23:23.660766
- Title: Structure-preserving Image Translation for Depth Estimation in Colonoscopy Video
- Title(参考訳): 内視鏡画像における深度推定のための構造保存画像変換
- Authors: Shuxian Wang, Akshay Paruchuri, Zhaoxi Zhang, Sarah McGill, Roni Sengupta,
- Abstract要約: 本稿では,構造保存型合成現実画像(sim2real)のパイプラインを提案する。
これにより、教師付き深度推定のために、大量のリアルな合成画像を生成することができる。
また,画像翻訳のプロセスを改善するために,臨床大腸内視鏡からの手書き配列のデータセットも提案する。
- 参考スコア(独自算出の注目度): 1.0485739694839669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation in colonoscopy video aims to overcome the unusual lighting properties of the colonoscopic environment. One of the major challenges in this area is the domain gap between annotated but unrealistic synthetic data and unannotated but realistic clinical data. Previous attempts to bridge this domain gap directly target the depth estimation task itself. We propose a general pipeline of structure-preserving synthetic-to-real (sim2real) image translation (producing a modified version of the input image) to retain depth geometry through the translation process. This allows us to generate large quantities of realistic-looking synthetic images for supervised depth estimation with improved generalization to the clinical domain. We also propose a dataset of hand-picked sequences from clinical colonoscopies to improve the image translation process. We demonstrate the simultaneous realism of the translated images and preservation of depth maps via the performance of downstream depth estimation on various datasets.
- Abstract(参考訳): 大腸内視鏡画像における単眼深度推定は, 大腸内視鏡環境の異常な照明特性を克服することを目的としている。
この領域における大きな課題の1つは、注釈付きだが非現実的な合成データと、注釈付きだが現実的な臨床データとのドメインギャップである。
このドメインギャップをブリッジしようとする以前の試みは、深さ推定タスク自体を直接ターゲットとしていた。
構造保存型合成現実画像変換(入力画像の修正版を生成する)の一般的なパイプラインを提案する。
これにより、臨床領域への一般化を改良した教師付き深度推定のために、大量のリアルな合成画像を生成することができる。
また,画像翻訳のプロセスを改善するために,臨床大腸内視鏡からの手書き配列のデータセットも提案する。
各種データセット上での下流深度推定の性能を通して,翻訳画像の同時現実性と深度マップの保存を実証する。
関連論文リスト
- Enhancing Bronchoscopy Depth Estimation through Synthetic-to-Real Domain Adaptation [2.795503750654676]
本研究では, 深度ラベル付き合成データを用いた移動学習フレームワークを提案し, 実気管支鏡データの正確な深度推定にドメイン知識を適用した。
本ネットワークは,合成データのみによるトレーニングに比べて,実際の映像の深度予測の改善を実証し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-11-07T03:48:35Z) - ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation [67.22294293695255]
そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。
以上の結果から,本手法は実写および合成大腸内視鏡ビデオの深度マップを精度良く予測できることが示唆された。
論文 参考訳(メタデータ) (2024-07-23T14:24:26Z) - Q-SLAM: Quadric Representations for Monocular SLAM [85.82697759049388]
四角形のレンズを通して体積表現を再現する。
我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。
本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
論文 参考訳(メタデータ) (2024-03-12T23:27:30Z) - Depth-aware Volume Attention for Texture-less Stereo Matching [67.46404479356896]
実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量なボリューム改善手法を提案する。
画像テクスチャの相対的階層を抽出し,地中深度マップによって教師される深度体積を導入する。
局所的な微細構造と文脈は、体積凝集時のあいまいさと冗長性を緩和するために強調される。
論文 参考訳(メタデータ) (2024-02-14T04:07:44Z) - Leveraging a realistic synthetic database to learn Shape-from-Shading
for estimating the colon depth in colonoscopy images [0.20482269513546453]
本研究は,単眼的大腸内視鏡画像から1フレームの大腸深度マップを推定する新しい手法を提案する。
生成した深度マップは、光源に関する結腸壁のシェーディング変動から推定される。
古典的な畳み込みニューラルネットワークアーキテクチャは、深さマップを推定するためにゼロから訓練される。
論文 参考訳(メタデータ) (2023-11-08T21:14:56Z) - SoftEnNet: Symbiotic Monocular Depth Estimation and Lumen Segmentation
for Colonoscopy Endorobots [2.9696400288366127]
大腸癌は世界で3番目に多いがん死の原因である。
視覚ベースの自律型内視鏡は大腸内視鏡の手順を大幅に改善することができる。
論文 参考訳(メタデータ) (2023-01-19T16:22:17Z) - Depth Estimation from Single-shot Monocular Endoscope Image Using Image
Domain Adaptation And Edge-Aware Depth Estimation [1.7086737326992167]
領域適応によるランベルト面の変換とマルチスケールエッジロスを用いた深度推定による単眼単眼単眼内視鏡像からの深度推定法を提案する。
臓器の表面のテクスチャと特異反射により、深さ推定の精度が低下する。
本研究では,畳み込みニューラルネットワークを用いた大腸内視鏡像の解剖学的位置同定に,推定深度画像を適用した。
論文 参考訳(メタデータ) (2022-01-12T14:06:54Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Adversarial Domain Feature Adaptation for Bronchoscopic Depth Estimation [111.89519571205778]
そこで本研究では,深度推定のためのドメイン適応手法を提案する。
提案する2段階構造は,まず,ラベル付き合成画像を用いた深度推定ネットワークを教師付きで訓練する。
実験の結果,提案手法は実画像上でのネットワーク性能をかなりの差で向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-24T08:11:34Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。