論文の概要: Spectral Rectification for Parameter-Efficient Adaptation of Foundation Models in Colonoscopy Depth Estimation
- arxiv url: http://arxiv.org/abs/2603.15374v1
- Date: Mon, 16 Mar 2026 14:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.51163
- Title: Spectral Rectification for Parameter-Efficient Adaptation of Foundation Models in Colonoscopy Depth Estimation
- Title(参考訳): 内視鏡的深さ推定における基礎モデルのパラメータ効率の良い適応のためのスペクトル整流
- Authors: Xiaoxian Zhang, Minghai Shi, Lei Li,
- Abstract要約: 自然画像に基づいて訓練された基礎モデルは、大腸内視鏡に直接一般化することができない。
事前学習したモデルのロバストな幾何学的表現を保持するパラメータ効率適応フレームワークであるSpecDepthを提案する。
パブリックなC3VDとSimCol3Dデータセットにおいて、SpecDepthは0.022と0.027の絶対相対誤差で最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 6.285139034905719
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accurate monocular depth estimation is critical in colonoscopy for lesion localization and navigation. Foundation models trained on natural images fail to generalize directly to colonoscopy. We identify the core issue not as a semantic gap, but as a statistical shift in the frequency domain: colonoscopy images lack the strong high-frequency edge and texture gradients that these models rely on for geometric reasoning. To address this, we propose SpecDepth, a parameter-efficient adaptation framework that preserves the robust geometric representations of the pre-trained models while adapting to the colonoscopy domain. Its key innovation is an adaptive spectral rectification module, which uses a learnable wavelet decomposition to explicitly model and amplify the attenuated high-frequency components in feature maps. Different from conventional fine-tuning that risks distorting high-level semantic features, this targeted, low-level adjustment realigns the input signal with the original inductive bias of the foundational model. On the public C3VD and SimCol3D datasets, SpecDepth achieved state-of-the-art performance with an absolute relative error of 0.022 and 0.027, respectively. Our work demonstrates that directly addressing spectral mismatches is a highly effective strategy for adapting vision foundation models to specialized medical imaging tasks. The code will be released publicly after the manuscript is accepted for publication.
- Abstract(参考訳): 大腸内視鏡検査では, 正確な単眼深度推定が重要であり, 病変の局在とナビゲーションが重要である。
自然画像に基づいて訓練された基礎モデルは、大腸内視鏡に直接一般化することができない。
大腸内視鏡画像は、これらのモデルが幾何学的推論に頼っている強力な高周波エッジとテクスチャ勾配を欠いている。
そこで本研究では,大腸内視鏡領域に適応しながら,事前学習したモデルのロバストな幾何学的表現を保存するパラメータ効率適応フレームワークSpecDepthを提案する。
このモジュールは学習可能なウェーブレット分解を用いて特徴写像の減衰した高周波成分を明示的にモデル化し増幅する。
高レベルの意味的特徴を歪ませるリスクを負う従来の微調整とは異なり、この標的となる低レベルの調整は、入力信号に基礎モデルの本来の帰納バイアスを付与する。
パブリックなC3VDデータセットとSimCol3Dデータセットでは、SpecDepthはそれぞれ0.022と0.027の絶対相対誤差で最先端のパフォーマンスを達成した。
我々の研究は、スペクトルミスマッチに直接対処することが、視覚基盤モデルを専門的な医用画像タスクに適応させる上で、非常に効果的な戦略であることを実証している。
コードは、原稿が出版に受け入れられた後、公開されます。
関連論文リスト
- NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting [25.805439969022697]
3次元ガウス法による内視鏡用単分子非剛性SLAMシステムNRGS-SLAMを提案する。
NRGS-SLAMは、最先端の手法よりも精度の高いカメラポーズ推定(RMSEの最大50%の削減)と高品質なフォトリアリスティック再構成を実現する。
論文 参考訳(メタデータ) (2026-02-19T09:03:47Z) - HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文 参考訳(メタデータ) (2026-01-24T10:31:21Z) - ColonAdapter: Geometry Estimation Through Foundation Model Adaptation for Colonoscopy [18.844097623387974]
単眼の大腸内視鏡像から3次元形状を推定することは、非ランベルト面、移動光源、大きなテクスチャのない領域のために困難である。
大腸内視鏡の幾何学的基礎モデルに適応する自己教師型微調整フレームワークであるColonAdapterを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:21:11Z) - Diffusion-Based Data Augmentation for Medical Image Segmentation [2.841725244360927]
DiffAugは、テキスト誘導拡散ベースの生成と自動セグメンテーションバリデーションを組み合わせた、新しいフレームワークである。
我々のフレームワークは、ベースラインよりも8-10%Diceの改善で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-08-25T09:49:27Z) - One-for-More: Continual Diffusion Model for Anomaly Detection [63.50488826645681]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。
われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。
本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-27T07:47:27Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation [67.22294293695255]
そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。
以上の結果から,本手法は実写および合成大腸内視鏡ビデオの深度マップを精度良く予測できることが示唆された。
論文 参考訳(メタデータ) (2024-07-23T14:24:26Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。