論文の概要: Prototypical Progressive Alignment and Reweighting for Generalizable Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2507.11955v1
- Date: Wed, 16 Jul 2025 06:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.259195
- Title: Prototypical Progressive Alignment and Reweighting for Generalizable Semantic Segmentation
- Title(参考訳): 一般化可能なセマンティックセグメンテーションのためのプロトタイプ的プログレッシブアライメントとリヘアリング
- Authors: Yuhang Zhang, Zhengyu Zhang, Muxin Liao, Shishun Tian, Wenbin Zou, Lu Zhang, Chen Xu,
- Abstract要約: 一般化可能なセマンティックセグメンテーションは、目に見えないターゲットドメインでうまく機能することを目的としている。
クラスワイドプロトタイプは、安定性とセマンティック一貫性のために一般化の恩恵を受けるドメイン不変のキューとして機能する。
一般化可能なセマンティックセグメンテーションのための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.24093379138835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizable semantic segmentation aims to perform well on unseen target domains, a critical challenge due to real-world applications requiring high generalizability. Class-wise prototypes, representing class centroids, serve as domain-invariant cues that benefit generalization due to their stability and semantic consistency. However, this approach faces three challenges. First, existing methods often adopt coarse prototypical alignment strategies, which may hinder performance. Second, naive prototypes computed by averaging source batch features are prone to overfitting and may be negatively affected by unrelated source data. Third, most methods treat all source samples equally, ignoring the fact that different features have varying adaptation difficulties. To address these limitations, we propose a novel framework for generalizable semantic segmentation: Prototypical Progressive Alignment and Reweighting (PPAR), leveraging the strong generalization ability of the CLIP model. Specifically, we define two prototypes: the Original Text Prototype (OTP) and Visual Text Prototype (VTP), generated via CLIP to serve as a solid base for alignment. We then introduce a progressive alignment strategy that aligns features in an easy-to-difficult manner, reducing domain gaps gradually. Furthermore, we propose a prototypical reweighting mechanism that estimates the reliability of source data and adjusts its contribution, mitigating the effect of irrelevant or harmful features (i.e., reducing negative transfer). We also provide a theoretical analysis showing the alignment between our method and domain generalization theory. Extensive experiments across multiple benchmarks demonstrate that PPAR achieves state-of-the-art performance, validating its effectiveness.
- Abstract(参考訳): 一般化可能なセマンティックセグメンテーションは、目に見えないターゲットドメインでうまく機能することを目的としている。
クラスセントロイドを表すクラスワイドプロトタイプは、その安定性とセマンティック一貫性のために一般化の恩恵を受けるドメイン不変のキューとして機能する。
しかし、このアプローチには3つの課題があります。
第一に、既存の手法はしばしば粗い原型アライメント戦略を採用しており、性能を損なう可能性がある。
第二に、平均的なソースバッチ機能によって計算される単純プロトタイプは、過度に適合する傾向があり、無関係なソースデータに悪影響を及ぼす可能性がある。
第3に、ほとんどの手法は、異なる特徴が様々な適応困難を持つという事実を無視して、全てのソースサンプルを等しく扱う。
このような制約に対処するために,CLIPモデルの強力な一般化能力を活用し,PPAR(Prototypeal Progressive Alignment and Reweighting)という,一般化可能なセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
具体的には、オリジナルテキストプロトタイプ(OTP)と、CLIPを介して生成されたビジュアルテキストプロトタイプ(VTP)の2つのプロトタイプを定義し、アライメントのためのソリッドベースとして機能する。
次に,特徴を分かりやすい方法で整列させ,ドメインギャップを徐々に減少させる,プログレッシブアライメント戦略を導入する。
さらに、原典データの信頼性を推定し、その寄与を調整し、無関係または有害な特徴(負の移動を減らすこと)の効果を緩和する原型的再重み付け機構を提案する。
また,本手法と領域一般化理論の整合性を示す理論的解析を行った。
複数のベンチマークにわたる大規模な実験は、PPARが最先端のパフォーマンスを達成し、その有効性を検証していることを示している。
関連論文リスト
- Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation [75.18058114915327]
一般化されたFew-Shot Semanticnative(GFSS)は、いくつかの注釈付き例だけでセグメンテーションモデルを新しいクラスに拡張することを目的としている。
プリトレーニング済みCLIPのマルチモーダルプロトタイプ上での確率的プロトタイプ校正フレームワークであるFewCLIPを提案する。
FewCLIPはGFSSとクラスインクリメンタルセッティングの両方で最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2025-06-28T18:36:22Z) - Partial Transportability for Domain Generalization [56.37032680901525]
本稿では, 部分的同定と輸送可能性の理論に基づいて, 対象分布の関数値の有界化に関する新たな結果を紹介する。
我々の貢献は、輸送可能性問題に対する最初の一般的な評価手法を提供することである。
本稿では,スケーラブルな推論を実現するための勾配に基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T22:06:37Z) - FedORGP: Guiding Heterogeneous Federated Learning with Orthogonality Regularization on Global Prototypes [31.93057335216804]
フェデレートラーニング(FL)は、分散機械学習に不可欠なフレームワークとして登場した。
現在のアプローチでは、クラスを分離する際の制限に直面している。
本稿では,クラス内プロトタイプの類似性を奨励し,クラス間角分離を拡大するFedtFLORGを紹介する。
論文 参考訳(メタデータ) (2025-02-22T07:02:51Z) - PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination [14.50214193838818]
CLIPのようなビジョン言語(V-L)モデルのゼロショット一般化は、広く採用されている。
従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。
本研究では,テストサンプルとフィルタ付き拡張ビューで得られた平均クラス確率によって重み付けされたクラス認識型プロトタイプアライメントを採用する。
論文 参考訳(メタデータ) (2024-04-11T07:26:00Z) - Prototypical Contrastive Learning through Alignment and Uniformity for
Recommendation [6.790779112538357]
提案するアンダーライン・アライメントとアンダーライン・ユニフォーマル性によるインダーライン型コントラスト学習について述べる。
具体的には、まず、原点グラフから異なる拡張点間の整合性を確保するために、潜時空間としてプロトタイプを提案する。
明示的な負の欠如は、インスタンスとプロトタイプ間の整合性損失を直接最適化することで、次元的な崩壊の問題が容易に生じることを意味する。
論文 参考訳(メタデータ) (2024-02-03T08:19:26Z) - A Robust Negative Learning Approach to Partial Domain Adaptation Using
Source Prototypes [0.8895157045883034]
この研究は、負の転送問題を緩和する堅牢な部分的ドメイン適応(PDA)フレームワークを提案する。
それは多様で相補的なラベルフィードバックを含み、誤ったフィードバックの効果を緩和し、擬似ラベル改善を促進する。
我々は,部分領域適応タスクを網羅するアブレーション解析を含む包括的実験を行った。
論文 参考訳(メタデータ) (2023-09-07T07:26:27Z) - Rethinking Prototypical Contrastive Learning through Alignment,
Uniformity and Correlation [24.794022951873156]
我々は、アライメント、均一性、相関(PAUC)を通して、プロトタイプ表現を学ぶことを提案する。
具体的には,(1)正の原型から埋め込みを抽出するアライメント損失,(2)原型レベルの特徴を均一に分配するアライメント損失,(3)原型レベルの特徴間の多様性と識別性を増大させる相関損失を補正する。
論文 参考訳(メタデータ) (2022-10-18T22:33:12Z) - BMD: A General Class-balanced Multicentric Dynamic Prototype Strategy
for Source-free Domain Adaptation [74.93176783541332]
Source-free Domain Adaptation (SFDA)は、トレーニング済みのソースモデルを、十分にラベル付けされたソースデータにアクセスすることなく、未ラベルのターゲットドメインに適応することを目的としている。
ソースデータの欠如を補うため、既存のほとんどのメソッドは、機能プロトタイプベースの擬似ラベル戦略を導入した。
SFDAタスクのための汎用クラスベース多中心動的プロトタイプ戦略を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:23:02Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。