論文の概要: Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation
- arxiv url: http://arxiv.org/abs/2602.21740v1
- Date: Wed, 25 Feb 2026 09:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.783666
- Title: Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation
- Title(参考訳): 構造から画像へ:高忠実なシム・トゥ・レアル適応による大腸内視鏡におけるゼロショット深さ推定
- Authors: Juan Yang, Yuyan Zhang, Han Jia, Bing Hu, Wanzhong Song,
- Abstract要約: 大腸内視鏡検査のための単眼深度推定(MDE)は,シミュレーション画像と実世界の画像との領域ギャップによって妨げられる。
既存の画像から画像への変換法は、奥行きを制約として用い、しばしば構造的な歪みや特異なハイライトを生じる。
受動的制約からアクティブな生成基盤へと深度マップを変換する構造対画像のパラダイムを提案する。
- 参考スコア(独自算出の注目度): 6.679573883606033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation (MDE) for colonoscopy is hampered by the domain gap between simulated and real-world images. Existing image-to-image translation methods, which use depth as a posterior constraint, often produce structural distortions and specular highlights by failing to balance realism with structure consistency. To address this, we propose a Structure-to-Image paradigm that transforms the depth map from a passive constraint into an active generative foundation. We are the first to introduce phase congruency to colonoscopic domain adaptation and design a cross-level structure constraint to co-optimize geometric structures and fine-grained details like vascular textures. In zero-shot evaluations conducted on a publicly available phantom dataset, the MDE model that was fine-tuned on our generated data achieved a maximum reduction of 44.18% in RMSE compared to competing methods. Our code is available at https://github.com/YyangJJuan/PC-S2I.git.
- Abstract(参考訳): 大腸内視鏡検査のための単眼深度推定(MDE)は,シミュレーション画像と実世界の画像との領域ギャップによって妨げられる。
既存の画像から画像への変換法は、奥行きを制約として用い、しばしば構造的歪みや特異なハイライトを生じさせ、現実性と構造的一貫性のバランスをとらない。
そこで本研究では,奥行きマップを受動的制約からアクティブな生成基盤へ変換する構造対画像のパラダイムを提案する。
われわれは,内視鏡的領域適応に初めて位相整合性を導入し,幾何学的構造と血管のテクスチャなどの微細な細部を協調的に最適化するクロスレベル構造制約を設計した。
公開されているファントムデータセットを用いたゼロショット評価では、生成したデータに基づいて微調整したMDEモデルは、競合する手法と比較して最大44.18%の削減を実現した。
私たちのコードはhttps://github.com/YyangJJuan/PC-S2I.gitで利用可能です。
関連論文リスト
- StarryGazer: Leveraging Monocular Depth Estimation Models for Domain-Agnostic Single Depth Image Completion [56.28564075246147]
StarryGazerは、単一のスパース深度画像とRGB画像から高密度深度画像を予測するフレームワークである。
我々は、相対深度画像を生成するために、事前訓練されたMDEモデルを用いる。
モデルの精度とロバスト性を改善するために、相対深度マップとRGBイメージを組み込んだ合成ペアを用いて改良ネットワークを訓練する。
論文 参考訳(メタデータ) (2025-12-15T09:56:09Z) - ControlVP: Interactive Geometric Refinement of AI-Generated Images with Consistent Vanishing Points [32.23473666846317]
生成した画像の点不整合を補正するユーザガイドフレームワークである制御VPを提案する。
提案手法は, 構造物の輪郭から導出される構造的ガイダンスを組み込むことにより, 事前学習拡散モデルを拡張する。
本手法は,ベースラインに匹敵する視力を維持しながら,グローバルな幾何整合性を向上させる。
論文 参考訳(メタデータ) (2025-12-08T12:38:11Z) - PPS-Ctrl: Controllable Sim-to-Real Translation for Colonoscopy Depth Estimation [12.549599571284304]
臨床データから現実的なテクスチャを生成しながら構造を保存できる新しい画像間翻訳フレームワークを提案する。
私たちのキーとなるイノベーションは、Per-Pixel Shading (PPS) マップから抽出された潜在表現を条件に、Stable Diffusion と ControlNetを統合したことです。
実験により,本手法はより現実的な翻訳を実現し,GANに基づくMI-CycleGANの深度推定を改善した。
論文 参考訳(メタデータ) (2025-04-23T19:28:58Z) - Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - Structure-preserving Image Translation for Depth Estimation in Colonoscopy Video [1.0485739694839669]
本稿では,構造保存型合成現実画像(sim2real)のパイプラインを提案する。
これにより、教師付き深度推定のために、大量のリアルな合成画像を生成することができる。
また,画像翻訳のプロセスを改善するために,臨床大腸内視鏡からの手書き配列のデータセットも提案する。
論文 参考訳(メタデータ) (2024-08-19T17:02:16Z) - ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation [67.22294293695255]
そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。
以上の結果から,本手法は実写および合成大腸内視鏡ビデオの深度マップを精度良く予測できることが示唆された。
論文 参考訳(メタデータ) (2024-07-23T14:24:26Z) - Q-SLAM: Quadric Representations for Monocular SLAM [85.82697759049388]
四角形のレンズを通して体積表現を再現する。
我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。
本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
論文 参考訳(メタデータ) (2024-03-12T23:27:30Z) - Improved Cryo-EM Pose Estimation and 3D Classification through Latent-Space Disentanglement [14.973360669658561]
本稿では,自己教師付き変分オートエンコーダアーキテクチャであるHetACUMNを提案する。
シミュレーションデータセットの結果,HetACUMNは,他のアモータイズ法や非アモータイズ法よりも正確なコンフォメーション分類が得られた。
論文 参考訳(メタデータ) (2023-08-09T13:41:30Z) - A Structure-Guided Diffusion Model for Large-Hole Image Completion [85.61681358977266]
画像中の大きな穴を埋める構造誘導拡散モデルを開発した。
本手法は,最先端の手法と比較して,優れた,あるいは同等の視覚的品質を実現する。
論文 参考訳(メタデータ) (2022-11-18T18:59:01Z) - Image-to-Height Domain Translation for Synthetic Aperture Sonar [3.2662392450935416]
本研究では,等方的および異方的テクスチャに関する集合幾何学に焦点をあてる。
集合幾何学の低放牧角度は、異方性テクスチャに対するソナーパスの配向と相まって、画像アライメントや他の多視点シーン理解フレームワークにとって重要な課題である。
論文 参考訳(メタデータ) (2021-12-12T19:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。