論文の概要: Segment Any-Quality Images with Generative Latent Space Enhancement
- arxiv url: http://arxiv.org/abs/2503.12507v1
- Date: Sun, 16 Mar 2025 13:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:00.922244
- Title: Segment Any-Quality Images with Generative Latent Space Enhancement
- Title(参考訳): 生成遅延空間拡張による非品質画像のセグメント化
- Authors: Guangqian Guo, Yoong Guo, Xuehui Yu, Wenbo Li, Yaoxing Wang, Shan Gao,
- Abstract要約: 低画質画像のロバスト性を高めるため,GleSAMを提案する。
潜伏拡散の概念をSAMベースのセグメンテーションフレームワークに適用する。
また,事前学習した拡散モデルとセグメンテーションフレームワークとの互換性を改善するための2つの手法を導入する。
- 参考スコア(独自算出の注目度): 17.340546112898267
- License:
- Abstract: Despite their success, Segment Anything Models (SAMs) experience significant performance drops on severely degraded, low-quality images, limiting their effectiveness in real-world scenarios. To address this, we propose GleSAM, which utilizes Generative Latent space Enhancement to boost robustness on low-quality images, thus enabling generalization across various image qualities. Specifically, we adapt the concept of latent diffusion to SAM-based segmentation frameworks and perform the generative diffusion process in the latent space of SAM to reconstruct high-quality representation, thereby improving segmentation. Additionally, we introduce two techniques to improve compatibility between the pre-trained diffusion model and the segmentation framework. Our method can be applied to pre-trained SAM and SAM2 with only minimal additional learnable parameters, allowing for efficient optimization. We also construct the LQSeg dataset with a greater diversity of degradation types and levels for training and evaluating the model. Extensive experiments demonstrate that GleSAM significantly improves segmentation robustness on complex degradations while maintaining generalization to clear images. Furthermore, GleSAM also performs well on unseen degradations, underscoring the versatility of our approach and dataset.
- Abstract(参考訳): その成功にもかかわらず、Segment Anything Models (SAMs) は高度に劣化した低品質の画像に対して大幅なパフォーマンス低下を経験し、現実のシナリオでの有効性を制限した。
そこで我々は,GleSAMを提案する。GleSAMは,低画質画像におけるロバスト性を高めるために生成遅延空間拡張を利用するため,様々な画像品質の一般化を可能にする。
具体的には,潜伏拡散の概念をSAMベースのセグメンテーションフレームワークに適用し,SAMの潜伏空間における生成拡散プロセスを実行し,高品質な表現を再構築し,セグメンテーションを改善する。
さらに,事前学習した拡散モデルとセグメンテーションフレームワークとの互換性を改善するための2つの手法を導入する。
本手法は,学習可能なパラメータを最小限に追加するだけで,事前学習したSAMとSAM2に適用することができる。
また,LQSegデータセットを構築し,モデルの構築と評価を行う。
大規模な実験により、GleSAMは画像の鮮明化を保ちながら、複雑な劣化に対するセグメンテーションの堅牢性を大幅に改善することが示された。
さらに、GleSAMは目に見えない劣化にもうまく取り組み、我々のアプローチとデータセットの汎用性を強調しています。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
異常セグメンテーションのための textbfSelf-textbfPerceptinon textbfTuning (textbfSPT) 法を提案する。
SPT法は, 自己描画型チューニング戦略を取り入れ, 異常マスクの初期粗いドラフトを生成し, 精製処理を行う。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - RobustSAM: Segment Anything Robustly on Degraded Images [19.767828436963317]
Segment Anything Model (SAM) は画像セグメンテーションにおける変換的アプローチとして登場した。
低画質画像におけるSAMの性能を向上させるRobust Segment Anything Model (RobustSAM)を提案する。
提案手法は, SAMに基づくダウンストリームタスクにおいて, 単一画像のデハージングやデブロアリングなどの性能を効果的に向上することを目的としている。
論文 参考訳(メタデータ) (2024-06-13T23:33:59Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment
Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。
The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。
CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-01-04T15:54:45Z) - Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation [43.759808066264334]
本稿では,アンカー正規化と低ランク微調整を併用した弱教師付き自己学習アーキテクチャを提案する。
本研究では, 自然浄化・破損画像, 医用画像, カモフラージュ画像, ロボット画像など, 5種類の下流セグメンテーションタスクの有効性を検証した。
論文 参考訳(メタデータ) (2023-12-06T13:59:22Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。