論文の概要: Generalizing monocular colonoscopy image depth estimation by uncertainty-based global and local fusion network
- arxiv url: http://arxiv.org/abs/2409.15006v1
- Date: Mon, 23 Sep 2024 13:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 15:05:21.891628
- Title: Generalizing monocular colonoscopy image depth estimation by uncertainty-based global and local fusion network
- Title(参考訳): 不確実性に基づく大局的核融合ネットワークによる単眼大腸内視鏡画像深度推定の一般化
- Authors: Sijia Du, Chengfeng Zhou, Suncheng Xiang, Jianwei Xu, Dahong Qian,
- Abstract要約: 本研究の目的は,大腸内視鏡画像によく応用できる堅牢なフレームワークを開発することである。
本稿では,局所的な特徴を捉えるための畳み込みニューラルネットワーク(CNN)と,グローバルな情報を取得するためのトランスフォーマーを組み合わせたフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.4419856649092746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: Depth estimation is crucial for endoscopic navigation and manipulation, but obtaining ground-truth depth maps in real clinical scenarios, such as the colon, is challenging. This study aims to develop a robust framework that generalizes well to real colonoscopy images, overcoming challenges like non-Lambertian surface reflection and diverse data distributions. Methods: We propose a framework combining a convolutional neural network (CNN) for capturing local features and a Transformer for capturing global information. An uncertainty-based fusion block was designed to enhance generalization by identifying complementary contributions from the CNN and Transformer branches. The network can be trained with simulated datasets and generalize directly to unseen clinical data without any fine-tuning. Results: Our method is validated on multiple datasets and demonstrates an excellent generalization ability across various datasets and anatomical structures. Furthermore, qualitative analysis in real clinical scenarios confirmed the robustness of the proposed method. Conclusion: The integration of local and global features through the CNN-Transformer architecture, along with the uncertainty-based fusion block, improves depth estimation performance and generalization in both simulated and real-world endoscopic environments. Significance: This study offers a novel approach to estimate depth maps for endoscopy images despite the complex conditions in clinic, serving as a foundation for endoscopic automatic navigation and other clinical tasks, such as polyp detection and segmentation.
- Abstract(参考訳): 目的: 内視鏡的ナビゲーションと操作には深さ推定が不可欠であるが, 大腸などの実際の臨床シナリオにおける地中深度マップの取得は困難である。
本研究の目的は,非ランベルト面の反射や多種多様なデータ分布といった課題を克服し,実際の大腸内視鏡像を一般化する堅牢なフレームワークを開発することである。
方法: 局所的な特徴を捉えるための畳み込みニューラルネットワーク(CNN)と,グローバル情報を取得するためのトランスフォーマーを組み合わせたフレームワークを提案する。
不確実性に基づく融合ブロックは、CNNとTransformerのブランチからの補完的なコントリビューションを識別することで、一般化を強化するために設計された。
ネットワークはシミュレートされたデータセットでトレーニングでき、微調整なしで、見えない臨床データに直接一般化できる。
結果: 本手法は複数のデータセットで検証され, 様々なデータセットや解剖学的構造にまたがる優れた一般化能力を示す。
さらに、実際の臨床シナリオにおける質的分析により、提案手法のロバスト性が確認された。
結論: CNN-Transformerアーキテクチャによる局所的・大域的特徴の統合と不確実性に基づく融合ブロックにより,シミュレーションおよび実世界の内視鏡環境における深度推定性能と一般化が向上する。
意義: 本研究は, 内視鏡的自動ナビゲーションやポリープ検出, セグメンテーションなどの臨床課題の基礎として, 臨床の複雑な状況にもかかわらず, 内視鏡画像の深度マップを推定するための新しいアプローチを提供する。
関連論文リスト
- Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
CMSwinKANは、病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルである。
臨床所見から導かれるソフト投票機構を導入し,パッチレベルの予測をスライド画像全体の分類にシームレスにブリッジする。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - Self-supervised Monocular Depth and Pose Estimation for Endoscopy with Generative Latent Priors [10.61978045582697]
内視鏡における3Dマッピングは、消化管(GI)内の定量的、全体的病変のキャラクタリゼーションを可能にする。
既存の合成データセットや複雑なモデルに依存する手法は、しばしば内視鏡的条件に挑戦する際の一般化性に欠ける。
本稿では,多変量オートエンコーダと生成潜在銀行を組み込んだ,頑健な自己監督型単眼深度とポーズ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T15:43:06Z) - ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation [67.22294293695255]
そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。
以上の結果から,本手法は実写および合成大腸内視鏡ビデオの深度マップを精度良く予測できることが示唆された。
論文 参考訳(メタデータ) (2024-07-23T14:24:26Z) - Rethinking model prototyping through the MedMNIST+ dataset collection [0.11999555634662634]
この作業では、MedMNIST+データセットコレクションの包括的なベンチマークを導入する。
我々は、一般的なCNN(Convolutional Neural Networks)とViT(Vision Transformer)アーキテクチャを、異なる医療データセットにわたって再評価する。
この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルが,エンドツーエンドのトレーニングに有効な代替手段を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-24T10:19:25Z) - K-Space-Aware Cross-Modality Score for Synthesized Neuroimage Quality
Assessment [71.27193056354741]
クロスモダリティな医用画像合成をどう評価するかという問題は、ほとんど解明されていない。
本稿では,この課題の進展を促すため,新しい指標K-CROSSを提案する。
K-CROSSは、トレーニング済みのマルチモードセグメンテーションネットワークを使用して、病変の位置を予測する。
論文 参考訳(メタデータ) (2023-07-10T01:26:48Z) - A Client-server Deep Federated Learning for Cross-domain Surgical Image
Segmentation [18.402074964118697]
本稿では2次元画像分割のためのクロスドメイン適応問題の解法を提案する。
医用画像解析におけるディープラーニングアーキテクチャは、より良い一般化のために広範なトレーニングデータを必要とする。
クロスドメイン適応のためのクライアントサーバのディープフェデレーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-14T19:49:47Z) - A geometry-aware deep network for depth estimation in monocular
endoscopy [17.425158094539462]
提案手法は,異なるデータセットと臨床画像にまたがって広範囲に検証されている。
提案法の平均RMSE値は12.604(T1-L1)、9.930(T2-L2)、13.893(Colon)である。
論文 参考訳(メタデータ) (2023-04-20T11:59:32Z) - Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images [55.83984261827332]
本稿では,信頼性の高いマルチスケールウェーブレットエンハンストランスネットワークを提案する。
本研究では,ウェーブレット型特徴抽出器ネットワークとマルチスケール変圧器モジュールを統合したセグメンテーションバックボーンを開発した。
提案手法は,他の最先端セグメンテーション手法と比較して信頼性の高いセグメンテーション精度を実現する。
論文 参考訳(メタデータ) (2022-12-01T07:32:56Z) - ScoreNet: Learning Non-Uniform Attention and Augmentation for
Transformer-Based Histopathological Image Classification [11.680355561258427]
高解像度画像はデジタル病理の進歩を妨げる。
パッチベースの処理は、しばしば複数のインスタンス学習(MIL)を組み込んで、画像レベルの予測をもたらす局所的なパッチレベルの表現を集約する。
本稿では,組織像分類に適したトランスフォーマーアーキテクチャを提案する。
局所的なきめ細かな注意と粗いグローバルな注意機構を組み合わせることで、高解像度画像の意味的な表現を効率的な計算コストで学習する。
論文 参考訳(メタデータ) (2022-02-15T16:55:09Z) - Contextual Information Enhanced Convolutional Neural Networks for
Retinal Vessel Segmentation in Color Fundus Images [0.0]
自動網膜血管セグメンテーションシステムは、臨床診断及び眼科研究を効果的に促進することができる。
ディープラーニングベースの手法が提案され、いくつかのカスタマイズされたモジュールが有名なエンコーダデコーダアーキテクチャU-netに統合されている。
その結果,提案手法は先行技術よりも優れ,感性/リコール,F1スコア,MCCの最先端性能を実現している。
論文 参考訳(メタデータ) (2021-03-25T06:10:47Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Towards a Computed-Aided Diagnosis System in Colonoscopy: Automatic
Polyp Segmentation Using Convolution Neural Networks [10.930181796935734]
大腸内視鏡およびカプセル内視鏡画像における病変の認識のための深層学習フレームワークを提案する。
本研究では, SfS と RGB の新規な組み合わせを提案するとともに, FCN をポリップセグメンテーションに用いた最初の研究について述べる。
論文 参考訳(メタデータ) (2021-01-15T10:08:53Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Domain Generalization for Medical Imaging Classification with
Linear-Dependency Regularization [59.5104563755095]
本稿では,医用画像分類分野におけるディープニューラルネットワークの一般化能力向上のための,シンプルだが効果的なアプローチを提案する。
医用画像の領域変数がある程度コンパクトであることに感銘を受けて,変分符号化による代表的特徴空間の学習を提案する。
論文 参考訳(メタデータ) (2020-09-27T12:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。