論文の概要: SAMwave: Wavelet-Driven Feature Enrichment for Effective Adaptation of Segment Anything Model
- arxiv url: http://arxiv.org/abs/2507.20186v1
- Date: Sun, 27 Jul 2025 09:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.173957
- Title: SAMwave: Wavelet-Driven Feature Enrichment for Effective Adaptation of Segment Anything Model
- Title(参考訳): SAMwave: セグメンテーションモデルの効果的な適応のためのウェーブレット駆動機能強化
- Authors: Saurabh Yadav, Avi Gupta, Koteswar Rao Jerripothula,
- Abstract要約: 我々は、ウェーブレット変換を利用して、入力データからよりリッチでマルチスケールな高周波特徴を抽出する新しい、解釈可能なアプローチであるtextbftextitSAMwaveを提案する。
4つの挑戦的低レベル視覚課題に対する経験的評価は、SAMwaveが既存の適応法を大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 1.8297494098768172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of large foundation models has propelled significant advances in various domains. The Segment Anything Model (SAM), a leading model for image segmentation, exemplifies these advances, outperforming traditional methods. However, such foundation models often suffer from performance degradation when applied to complex tasks for which they are not trained. Existing methods typically employ adapter-based fine-tuning strategies to adapt SAM for tasks and leverage high-frequency features extracted from the Fourier domain. However, Our analysis reveals that these approaches offer limited benefits due to constraints in their feature extraction techniques. To overcome this, we propose \textbf{\textit{SAMwave}}, a novel and interpretable approach that utilizes the wavelet transform to extract richer, multi-scale high-frequency features from input data. Extending this, we introduce complex-valued adapters capable of capturing complex-valued spatial-frequency information via complex wavelet transforms. By adaptively integrating these wavelet coefficients, SAMwave enables SAM's encoder to capture information more relevant for dense prediction. Empirical evaluations on four challenging low-level vision tasks demonstrate that SAMwave significantly outperforms existing adaptation methods. This superior performance is consistent across both the SAM and SAM2 backbones and holds for both real and complex-valued adapter variants, highlighting the efficiency, flexibility, and interpretability of our proposed method for adapting segment anything models.
- Abstract(参考訳): 大規模基盤モデルの出現は、様々な領域で大きな進歩をもたらした。
イメージセグメンテーションの主要なモデルであるSegment Anything Model (SAM)は、これらの進歩を実証し、従来の手法より優れている。
しかし、そのような基礎モデルは、訓練されていない複雑なタスクに適用した場合、しばしば性能劣化に悩まされる。
既存の手法では、一般に、SAMをタスクに適応させ、フーリエ領域から抽出した高周波の特徴を活用するために、アダプタベースの微調整戦略を採用している。
しかし,本分析により,これらの手法は特徴抽出手法の制約により,限られた利点をもたらすことが明らかとなった。
そこで本研究では、ウェーブレット変換を利用して入力データからよりリッチでマルチスケールな高周波数特徴を抽出する、新規かつ解釈可能なアプローチである「textbf{\textit{SAMwave}}」を提案する。
これを拡張し、複雑なウェーブレット変換により複素値空間周波数情報をキャプチャできる複素値アダプタを導入する。
これらのウェーブレット係数を適応的に統合することにより、SAMwaveはSAMのエンコーダがより密集した予測に関係のある情報をキャプチャすることを可能にする。
4つの挑戦的低レベル視覚課題に対する経験的評価は、SAMwaveが既存の適応法を大幅に上回っていることを示す。
この優れた性能はSAMとSAM2のバックボーン間で一貫しており、セグメントモデルに適応するための提案手法の効率性、柔軟性、解釈性を強調しながら、実値と複素値の両方のアダプタのバリエーションを保っている。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。
この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-08T22:16:54Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - UrbanSAM: Learning Invariance-Inspired Adapters for Segment Anything Models in Urban Construction [51.54946346023673]
都市形態は本質的に複雑で、様々な形状と様々なスケールの不規則な物体がある。
Segment Anything Model (SAM) は複雑なシーンのセグメンテーションにおいて大きな可能性を示している。
本研究では,複雑な都市環境の分析に特化して設計されたSAMのカスタマイズ版であるUrbanSAMを提案する。
論文 参考訳(メタデータ) (2025-02-21T04:25:19Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。
SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。
具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-05T14:54:31Z) - Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
異常セグメンテーションのための textbfSelf-textbfPerceptinon textbfTuning (textbfSPT) 法を提案する。
SPT法は, 自己描画型チューニング戦略を取り入れ, 異常マスクの初期粗いドラフトを生成し, 精製処理を行う。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - Unlocking the Power of Patch: Patch-Based MLP for Long-Term Time Series Forecasting [0.0]
近年,Transformer アーキテクチャを改良し,長期連続予測タスクの有効性を実証する研究が進められている。
これらのモデルの有効性は, 適用されたパッチ機構に大きく寄与する。
LTSFタスクのための新しいシンプルなパッチベースコンポーネント(PatchMLP)を提案する。
論文 参考訳(メタデータ) (2024-05-22T12:12:20Z) - ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment
Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。
The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。
CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-01-04T15:54:45Z) - Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT)
CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。
以上の結果より, CRAFTは現状の方法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2023-08-09T15:38:36Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。