論文の概要: Subsampled Randomized Fourier GaLore for Adapting Foundation Models in Depth-Driven Liver Landmark Segmentation
- arxiv url: http://arxiv.org/abs/2511.03163v1
- Date: Wed, 05 Nov 2025 04:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.317212
- Title: Subsampled Randomized Fourier GaLore for Adapting Foundation Models in Depth-Driven Liver Landmark Segmentation
- Title(参考訳): 深さ駆動型肝ランドマークセグメンテーションにおける基礎モデル適応のためのサブサンプルランダム化フーリエガロア
- Authors: Yun-Chen Lin, Jiayuan Huang, Hanyuan Zhang, Sergi Kavtaradze, Matthew J. Clarkson, Mobarak I. Hoque,
- Abstract要約: 本稿では,視覚基盤エンコーダを用いた意味的および幾何学的手がかりを組み込んだディープガイド型肝ランドマークセグメンテーションフレームワークを提案する。
SAM2 を効率よく適応させるために,SRFT-GaLore は,計算コストの高い SVD をサブサンプリングランダム化フーリエ変換に置き換える,新しい低ランク勾配投影法である。
本手法は,D2GPLandと比較して,Dice類似度係数が4.85%向上し,平均対称表面距離が11.78ポイント削減された。
- 参考スコア(独自算出の注目度): 6.91206648866302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate detection and delineation of anatomical structures in medical imaging are critical for computer-assisted interventions, particularly in laparoscopic liver surgery where 2D video streams limit depth perception and complicate landmark localization. While recent works have leveraged monocular depth cues for enhanced landmark detection, challenges remain in fusing RGB and depth features and in efficiently adapting large-scale vision models to surgical domains. We propose a depth-guided liver landmark segmentation framework integrating semantic and geometric cues via vision foundation encoders. We employ Segment Anything Model V2 (SAM2) encoder to extract RGB features and Depth Anything V2 (DA2) encoder to extract depth-aware features. To efficiently adapt SAM2, we introduce SRFT-GaLore, a novel low-rank gradient projection method that replaces the computationally expensive SVD with a Subsampled Randomized Fourier Transform (SRFT). This enables efficient fine-tuning of high-dimensional attention layers without sacrificing representational power. A cross-attention fusion module further integrates RGB and depth cues. To assess cross-dataset generalization, we also construct a new Laparoscopic Liver Surgical Dataset (LLSD) as an external validation benchmark. On the public L3D dataset, our method achieves a 4.85% improvement in Dice Similarity Coefficient and a 11.78-point reduction in Average Symmetric Surface Distance compared to the D2GPLand. To further assess generalization capability, we evaluate our model on LLSD dataset. Our model maintains competitive performance and significantly outperforms SAM-based baselines, demonstrating strong cross-dataset robustness and adaptability to unseen surgical environments. These results demonstrate that our SRFT-GaLore-enhanced dual-encoder framework enables scalable and precise segmentation under real-time, depth-constrained surgical settings.
- Abstract(参考訳): 医用画像における解剖学的構造の正確な検出とデライン化は、特に2Dビデオストリームが深度知覚を制限し、ランドマークの局所化を複雑化する腹腔鏡下肝手術において、コンピュータによる治療に重要である。
近年の研究では、単眼の奥行きの手がかりを利用してランドマークの検出を強化しているが、RGBと奥行きの特徴を融合させ、大規模な視覚モデルを外科領域に効率よく適応させることに課題が残されている。
本稿では,視覚基盤エンコーダを用いた意味的および幾何学的手がかりを組み込んだディープガイド型肝ランドマークセグメンテーションフレームワークを提案する。
我々は,Segment Anything Model V2 (SAM2) エンコーダを用いてRGB特徴を抽出し,Depth Anything V2 (DA2) エンコーダを用いて深度認識特徴を抽出する。
SAM2 を効率よく適応させるために,SRFT-GaLore は,計算コストの高いSVD を Subsampled Randomized Fourier Transform (SRFT) に置き換える,新しい低ランク勾配投影法である。
これにより、表現力を犠牲にすることなく、高次元の注意層を効率的に微調整することができる。
クロスアテンション融合モジュールは、さらにRGBとディープキューを統合する。
クロスデータセットの一般化を評価するため,新しい腹腔鏡下肝外科用データセット(LLSD)を外部検証ベンチマークとして構築した。
一般のL3Dデータセットでは,D2GPLandと比較してDice類似度係数が4.85%向上し,平均対称表面距離が11.78ポイント削減された。
一般化能力を更に評価するため,LLSDデータセット上でモデルを評価した。
我々のモデルは競争性能を維持し,SAMベースのベースラインを著しく上回り,強力なクロスデータセットの堅牢性と,目に見えない手術環境への適応性を示す。
以上の結果から,SRFT-GaLore拡張デュアルエンコーダフレームワークは,リアルタイム,深度制約のある手術環境下で,スケーラブルかつ高精度なセグメンテーションを可能にすることが示唆された。
関連論文リスト
- MM-UNet: Morph Mamba U-shaped Convolutional Networks for Retinal Vessel Segmentation [21.90972169495466]
MM-UNetは、効率的な網膜血管分割に適した新しいアーキテクチャである。
Morph Mamba Convolution 層が組み込まれており、分岐したトポロジカルな知覚を高めるためにポイントワイズ・コンボリューションを置き換える。
DRIVEで1.64ドル、STAREで1.25ドルというF1スコアのゲインを達成し、その効果と進歩を実証している。
論文 参考訳(メタデータ) (2025-11-04T02:18:25Z) - A Dual-Feature Extractor Framework for Accurate Back Depth and Spine Morphology Estimation from Monocular RGB Images [15.19284295210246]
本研究では,未着衣の奥行き情報を正確に推定する新しいパイプラインを提案する。
次に、深度情報と表面情報を統合することにより、脊椎形態を推定する。
この統合されたアプローチは、スピンの曲線生成の精度を高め、最高97%の性能を達成する。
論文 参考訳(メタデータ) (2025-07-30T13:55:37Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - Depth-Driven Geometric Prompt Learning for Laparoscopic Liver Landmark Detection [43.600236988802465]
肝臓の解剖学的ランドマークは、2D-3Dアライメントの重要なマーカーである。
腹腔鏡下肝所見の検出を容易にするため,L3Dと呼ばれる新しいデータセットを収集した。
本稿では,D2GPLandという深度駆動型幾何学的プロンプト学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-25T18:02:11Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - PAENet: A Progressive Attention-Enhanced Network for 3D to 2D Retinal
Vessel Segmentation [0.0]
光コヒーレンス・トモグラフィー(OCTA)画像では3次元から2次元の網膜血管セグメンテーションは難しい問題である。
本稿では,多機能表現を抽出するアテンション機構に基づくプログレッシブ・アテンション・エンハンスメント・ネットワーク(PAENet)を提案する。
提案アルゴリズムは,従来の手法と比較して最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-26T10:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。