論文の概要: Towards Any-Quality Image Segmentation via Generative and Adaptive Latent Space Enhancement
- arxiv url: http://arxiv.org/abs/2601.02018v1
- Date: Mon, 05 Jan 2026 11:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.042368
- Title: Towards Any-Quality Image Segmentation via Generative and Adaptive Latent Space Enhancement
- Title(参考訳): 生成的および適応的遅延空間拡張による任意の品質画像分割に向けて
- Authors: Guangqian Guo, Aixi Ren, Yong Guo, Xuehui Yu, Jiacheng Tian, Wenli Li, Yaoxing Wang, Shan Gao,
- Abstract要約: Segment Anything Models (SAM) は例外的なゼロショットセグメンテーション性能で知られている。
しかし、その性能は著しく劣化した低品質の画像に対して著しく低下し、現実のシナリオではその効果が制限される。
低画質画像におけるロバスト性を高めるために生成遅延空間拡張を利用するGleSAM++を提案する。
- 参考スコア(独自算出の注目度): 27.566673104431725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Models (SAMs), known for their exceptional zero-shot segmentation performance, have garnered significant attention in the research community. Nevertheless, their performance drops significantly on severely degraded, low-quality images, limiting their effectiveness in real-world scenarios. To address this, we propose GleSAM++, which utilizes Generative Latent space Enhancement to boost robustness on low-quality images, thus enabling generalization across various image qualities. Additionally, to improve compatibility between the pre-trained diffusion model and the segmentation framework, we introduce two techniques, i.e., Feature Distribution Alignment (FDA) and Channel Replication and Expansion (CRE). However, the above components lack explicit guidance regarding the degree of degradation. The model is forced to implicitly fit a complex noise distribution that spans conditions from mild noise to severe artifacts, which substantially increases the learning burden and leads to suboptimal reconstructions. To address this issue, we further introduce a Degradation-aware Adaptive Enhancement (DAE) mechanism. The key principle of DAE is to decouple the reconstruction process for arbitrary-quality features into two stages: degradation-level prediction and degradation-aware reconstruction. Our method can be applied to pre-trained SAM and SAM2 with only minimal additional learnable parameters, allowing for efficient optimization. Extensive experiments demonstrate that GleSAM++ significantly improves segmentation robustness on complex degradations while maintaining generalization to clear images. Furthermore, GleSAM++ also performs well on unseen degradations, underscoring the versatility of our approach and dataset.
- Abstract(参考訳): 特筆すべきゼロショットセグメンテーション性能で知られるセグメンツ・アプライスティング・モデル(SAM)は、研究コミュニティにおいて大きな注目を集めている。
それでも、そのパフォーマンスは著しく劣化した低品質の画像に対して著しく低下し、現実のシナリオでの有効性が制限された。
そこで我々は,GleSAM++を提案する。GleSAM++は,低画質画像におけるロバスト性を高めるために生成遅延空間拡張を利用するため,様々な画像品質の一般化を可能にする。
さらに,事前学習した拡散モデルとセグメンテーションフレームワークとの互換性を改善するため,FDA(Feature Distribution Alignment)とCRE(Channel Replication and Expansion)という2つの手法を導入する。
しかし、上記のコンポーネントは劣化の程度について明確なガイダンスを欠いている。
モデルは暗黙的に複雑なノイズ分布に適応し、軽度ノイズから重度アーチファクトまで条件を分散させ、学習負担を大幅に増加させ、最適でない再構築につながる。
この問題に対処するため,我々はさらに,DAE(Degradation-Aware Adaptive Enhancement)機構を導入する。
DAEの鍵となる原理は、任意の品質特徴の再構成過程を、分解レベル予測と劣化レベル予測の2段階に分離することである。
本手法は,学習可能なパラメータを最小限に追加するだけで,事前学習したSAMとSAM2に適用することができる。
大規模な実験により、GleSAM++は画像の明瞭化を保ちながら、複雑な劣化に対するセグメンテーションの堅牢性を大幅に向上することが示された。
さらに、GleSAM++は目に見えない劣化でもうまく機能し、私たちのアプローチとデータセットの汎用性を強調しています。
関連論文リスト
- ClusIR: Towards Cluster-Guided All-in-One Image Restoration [72.16989784735796]
ClusIRは、統一されたフレームワーク内でさまざまな劣化から高品質なイメージを復元することを目的としている。
ClusIRは、確率的クラスタ誘導ルーティング機構(PCGRM)と劣化対応周波数変調モジュール(DAFMM)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-12-11T18:59:47Z) - Physics-Guided Null-Space Diffusion with Sparse Masking for Corrective Sparse-View CT Reconstruction [5.479463752172751]
拡散モデルは画像処理タスクにおいて顕著な生成能力を示した。
スパース・ビューCT再構成のためのスパース・コンディション・リワイト統合分布推定誘導拡散モデル(STRIDE)を提案する。
実験結果から,PSNRでは2.58dB,SSIMでは2.37%,MSEでは0.236に改善した。
論文 参考訳(メタデータ) (2025-09-07T09:42:16Z) - RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration [51.77917733024544]
潜時拡散モデル(LDM)はオールインワン画像復元法(AiOR)の知覚的品質を改善した。
LDMは反復的なデノゲーションプロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
VAR(Visual Autoregressive Modeling)は、スケールスペースの自己回帰を行い、最先端の拡散変換器に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T15:52:26Z) - Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - Segment Any-Quality Images with Generative Latent Space Enhancement [23.05638803781018]
低画質画像のロバスト性を高めるため,GleSAMを提案する。
潜伏拡散の概念をSAMベースのセグメンテーションフレームワークに適用する。
また,事前学習した拡散モデルとセグメンテーションフレームワークとの互換性を改善するための2つの手法を導入する。
論文 参考訳(メタデータ) (2025-03-16T13:58:13Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - IPSeg: Image Posterior Mitigates Semantic Drift in Class-Incremental Segmentation [77.06177202334398]
CISSにおけるセマンティックドリフトとデグレード性能に寄与する2つの重要な課題を特定した。
まず、モデルの異なる部分が異なる漸進的な段階に最適化されるという、別々の最適化の問題を強調します。
第二に、不適切な擬似ラベルから生じる雑音のセマンティクスを同定し、その結果、準最適結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:19:37Z) - EchoIR: Advancing Image Restoration with Echo Upsampling and Bi-Level Optimization [0.0]
本稿では,このギャップを埋めるために,二つの学習可能なアップサンプリング機構を備えたUNetライクなイメージ復元ネットワークであるEchoIRを紹介する。
画像復元とアップサンプリングタスクの階層モデルの構築にあたり、近似二段階最適化(AS-BLO)を提案する。
論文 参考訳(メタデータ) (2024-12-10T06:27:08Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。