論文の概要: PPS-Ctrl: Controllable Sim-to-Real Translation for Colonoscopy Depth Estimation
- arxiv url: http://arxiv.org/abs/2504.17067v1
- Date: Wed, 23 Apr 2025 19:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.156678
- Title: PPS-Ctrl: Controllable Sim-to-Real Translation for Colonoscopy Depth Estimation
- Title(参考訳): PPS-Ctrl: 内視鏡的深度推定のための制御可能なSim-to-Real翻訳
- Authors: Xinqi Xiong, Andrea Dunn Beltran, Jun Myeong Choi, Marc Niethammer, Roni Sengupta,
- Abstract要約: 臨床データから現実的なテクスチャを生成しながら構造を保存できる新しい画像間翻訳フレームワークを提案する。
私たちのキーとなるイノベーションは、Per-Pixel Shading (PPS) マップから抽出された潜在表現を条件に、Stable Diffusion と ControlNetを統合したことです。
実験により,本手法はより現実的な翻訳を実現し,GANに基づくMI-CycleGANの深度推定を改善した。
- 参考スコア(独自算出の注目度): 12.549599571284304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate depth estimation enhances endoscopy navigation and diagnostics, but obtaining ground-truth depth in clinical settings is challenging. Synthetic datasets are often used for training, yet the domain gap limits generalization to real data. We propose a novel image-to-image translation framework that preserves structure while generating realistic textures from clinical data. Our key innovation integrates Stable Diffusion with ControlNet, conditioned on a latent representation extracted from a Per-Pixel Shading (PPS) map. PPS captures surface lighting effects, providing a stronger structural constraint than depth maps. Experiments show our approach produces more realistic translations and improves depth estimation over GAN-based MI-CycleGAN. Our code is publicly accessible at https://github.com/anaxqx/PPS-Ctrl.
- Abstract(参考訳): 正確な深度推定は内視鏡のナビゲーションと診断を促進させるが,臨床現場での深度把握は困難である。
合成データセットはトレーニングによく使用されるが、領域ギャップは一般化を実際のデータに制限する。
臨床データから現実的なテクスチャを生成しながら構造を保存できる新しい画像間翻訳フレームワークを提案する。
私たちのキーとなるイノベーションは、Per-Pixel Shading (PPS) マップから抽出された潜在表現を条件に、Stable Diffusion と ControlNetを統合したことです。
PPSは表面の照明効果を捉え、深度マップよりも強い構造的制約を与える。
実験により,本手法はより現実的な翻訳を実現し,GANに基づくMI-CycleGANの深度推定を改善した。
私たちのコードはhttps://github.com/anaxqx/PPS-Ctrl.comで公開されています。
関連論文リスト
- Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation [108.04354143020886]
本稿では、深度基礎モデルにプロンプトを導入し、Prompt Depth Anythingと呼ばれる計量深度推定のための新しいパラダイムを作成する。
低コストのLiDARを用いて、Depth Anythingモデルによる正確なメートル法深度出力を導出し、最大4K解像度を達成する。
論文 参考訳(メタデータ) (2024-12-18T16:32:12Z) - Structure-preserving Image Translation for Depth Estimation in Colonoscopy Video [1.0485739694839669]
本稿では,構造保存型合成現実画像(sim2real)のパイプラインを提案する。
これにより、教師付き深度推定のために、大量のリアルな合成画像を生成することができる。
また,画像翻訳のプロセスを改善するために,臨床大腸内視鏡からの手書き配列のデータセットも提案する。
論文 参考訳(メタデータ) (2024-08-19T17:02:16Z) - Leveraging Near-Field Lighting for Monocular Depth Estimation from Endoscopy Videos [12.497782583094281]
内視鏡ビデオにおける単眼深度推定は、補助手術やロボット手術により、臓器のより良いカバレッジと様々な健康問題の検出が可能になる。
主流の自然画像深度推定では有望な進歩があったが、内視鏡画像では技術が不十分であった。
本稿では, 内視鏡から放射される光を表面から反射する光学的手がかりを用いて, 単分子深度推定を改善する。
論文 参考訳(メタデータ) (2024-03-26T17:52:23Z) - Q-SLAM: Quadric Representations for Monocular SLAM [85.82697759049388]
四角形のレンズを通して体積表現を再現する。
我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。
本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
論文 参考訳(メタデータ) (2024-03-12T23:27:30Z) - HI-SLAM: Monocular Real-time Dense Mapping with Hybrid Implicit Fields [11.627951040865568]
最近のニューラルマッピングフレームワークは有望な結果を示しているが、RGB-Dやポーズ入力に依存している。
我々のアプローチは、高密度SLAMとニューラル暗黙の場を統合する。
ニューラルネットワークの効率的な構築には,マルチレゾリューショングリッド符号化と符号付き距離関数を用いる。
論文 参考訳(メタデータ) (2023-10-07T12:26:56Z) - Learning to Simulate Realistic LiDARs [66.7519667383175]
リアルLiDARセンサのデータ駆動シミュレーションのためのパイプラインを提案する。
本モデルでは, 透明表面上の落下点などの現実的な効果を符号化できることが示される。
我々は2つの異なるLiDARセンサのモデルを学習し、それに従ってシミュレーションされたLiDARデータを改善する。
論文 参考訳(メタデータ) (2022-09-22T13:12:54Z) - Consistent Depth Prediction under Various Illuminations using Dilated
Cross Attention [1.332560004325655]
我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを作成することを提案する。
異なる照明条件下での深度予測の整合性を維持するため,これらの拡張された特徴に横断的な注意を払っている。
提案手法は,Variデータセットの最先端手法との比較により評価され,実験で有意な改善が見られた。
論文 参考訳(メタデータ) (2021-12-15T10:02:46Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Project to Adapt: Domain Adaptation for Depth Completion from Noisy and
Sparse Sensor Data [26.050220048154596]
実領域や追加センサにアノテーションを付加することなく,合成データから学習した疎深度補完のためのドメイン適応手法を提案する。
提案手法は,RGB+LiDARセットアップにおける実センサノイズをシミュレートし,合成ドメイン内の実LiDAR入力を投影によりシミュレーションし,実雑音LiDARをフィルタリングし,CycleGANアプローチを用いて合成RGB画像に適応する3つのモジュールからなる。
論文 参考訳(メタデータ) (2020-08-03T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。