論文の概要: UCS: A Universal Model for Curvilinear Structure Segmentation
- arxiv url: http://arxiv.org/abs/2504.04034v1
- Date: Sat, 05 Apr 2025 03:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:39.181674
- Title: UCS: A Universal Model for Curvilinear Structure Segmentation
- Title(参考訳): UCS: 曲線構造セグメンテーションの普遍モデル
- Authors: Dianshuo Li, Li Chen, Yunxiang Cao, Kai Zhu, Jun Cheng,
- Abstract要約: カービリナー構造セグメンテーション(CSS)は、医療画像、景観分析、産業表面検査、植物分析など、様々な領域において不可欠である。
SAMをCSSタスクに適応させ,その一般化を向上するUniversal Curvilinear Structure (textitUCS) モデルを提案する。
textitUCSは、医学、工学、自然、植物画像にまたがる最先端の一般化とオープンセットのセグメンテーション性能を示す。
- 参考スコア(独自算出の注目度): 11.10994320036562
- License:
- Abstract: Curvilinear structure segmentation (CSS) is vital in various domains, including medical imaging, landscape analysis, industrial surface inspection, and plant analysis. While existing methods achieve high performance within specific domains, their generalizability is limited. On the other hand, large-scale models such as Segment Anything Model (SAM) exhibit strong generalization but are not optimized for curvilinear structures. Existing adaptations of SAM primarily focus on general object segmentation and lack specialized design for CSS tasks. To bridge this gap, we propose the Universal Curvilinear structure Segmentation (\textit{UCS}) model, which adapts SAM to CSS tasks while enhancing its generalization. \textit{UCS} features a novel encoder architecture integrating a pretrained SAM encoder with two innovations: a Sparse Adapter, strategically inserted to inherit the pre-trained SAM encoder's generalization capability while minimizing the number of fine-tuning parameters, and a Prompt Generation module, which leverages Fast Fourier Transform with a high-pass filter to generate curve-specific prompts. Furthermore, the \textit{UCS} incorporates a mask decoder that eliminates reliance on manual interaction through a dual-compression module: a Hierarchical Feature Compression module, which aggregates the outputs of the sampled encoder to enhance detail preservation, and a Guidance Feature Compression module, which extracts and compresses image-driven guidance features. Evaluated on a comprehensive multi-domain dataset, including an in-house dataset covering eight natural curvilinear structures, \textit{UCS} demonstrates state-of-the-art generalization and open-set segmentation performance across medical, engineering, natural, and plant imagery, establishing a new benchmark for universal CSS.
- Abstract(参考訳): カービリナー構造セグメンテーション(CSS)は、医療画像、景観分析、産業表面検査、植物分析など、様々な領域において不可欠である。
既存の手法は特定の領域内で高い性能を達成するが、その一般化性は限られている。
一方、Segment Anything Model (SAM) のような大規模モデルは強い一般化を示すが、曲線構造に最適化されていない。
SAMの既存の適応は主に汎用オブジェクトセグメンテーションに焦点を当てており、CSSタスクの特別な設計が欠けている。
このギャップを埋めるために、SAMをCSSタスクに適応させ、その一般化を強化したUniversal Curvilinear Structure Segmentation(\textit{UCS})モデルを提案する。
スパースアダプタ(Sparse Adapter)は、訓練済みのSAMエンコーダの一般化能力を継承するために戦略的に挿入され、微調整パラメータの数を最小化しながら機能する)と、高速フーリエ変換をハイパスフィルタで利用して曲線固有のプロンプトを生成するプロンプト生成モジュールである。
さらに、‘textit{UCS} には、デュアル圧縮モジュールによる手動インタラクションへの依存をなくすマスクデコーダ、サンプルエンコーダの出力を集約して詳細保存を強化する階層的特徴圧縮モジュール、画像駆動誘導特徴を抽出し圧縮するガイダンス特徴圧縮モジュールが組み込まれている。
8つの自然なカービリナー構造をカバーする社内データセットを含む、包括的なマルチドメインデータセットに基づいて評価された \textit{UCS} は、医学、工学、自然、植物画像にわたる最先端の一般化とオープンセットのセグメンテーションパフォーマンスを示し、ユニバーサルCSSの新しいベンチマークを確立する。
関連論文リスト
- FlexiCrackNet: A Flexible Pipeline for Enhanced Crack Segmentation with General Features Transfered from SAM [24.99233476254989]
FlexiCrackNetは、従来のディープラーニングパラダイムを大規模な事前学習モデルの強みとシームレスに統合する、新しいパイプラインである。
実験の結果、FlexiCrackNetは最先端の手法より優れ、ゼロショットの一般化、計算効率、セグメンテーションの堅牢性に優れていた。
これらの進歩は、自動クラック検出と包括的な構造的健康モニタリングシステムにおける現実的な応用のためのFlexiCrackNetの可能性を強調している。
論文 参考訳(メタデータ) (2025-01-31T02:37:09Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy
Dichotomous Image Segmentation [48.995367430746086]
Dichotomous Image rendering (DIS) は、自然の風景からカテゴリーに依存しない前景の物体をピンポイントすることを目的としている。
本稿では, トランクと構造同定の有効性を高めるために, 相補的特徴を再構成し, 分割的に配置する, UDUN (Unite-Divide-Unite Network) を提案する。
1024*1024入力を用いて、ResNet-18で65.3fpsのリアルタイム推論を可能にする。
論文 参考訳(メタデータ) (2023-07-26T09:04:35Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。