論文の概要: FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2504.10487v1
- Date: Mon, 14 Apr 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 17:17:36.860171
- Title: FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation
- Title(参考訳): FLOSS:オープンボキャブラリセマンティックセグメンテーションにおけるフリーランチ
- Authors: Yasser Benigmim, Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Raoul de Charette,
- Abstract要約: Open-Vocabulary Semantic (OVSS)モデルはCLIPモデルをセグメンテーションに拡張する。
本稿では,OVSSのテンプレートが与える影響について検討する。
我々は、より正確なOVSS予測を生成するために協力するクラスワイドの専門家を提案する。
- 参考スコア(独自算出の注目度): 25.106772176792653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Open-Vocabulary Semantic Segmentation (OVSS) models extend the CLIP model to segmentation while maintaining the use of multiple templates (e.g., a photo of <class>, a sketch of a <class>, etc.) for constructing class-wise averaged text embeddings, acting as a classifier. In this paper, we challenge this status quo and investigate the impact of templates for OVSS. Empirically, we observe that for each class, there exist single-template classifiers significantly outperforming the conventional averaged classifier. We refer to them as class-experts. Given access to unlabeled images and without any training involved, we estimate these experts by leveraging the class-wise prediction entropy of single-template classifiers, selecting as class-wise experts those which yield the lowest entropy. All experts, each specializing in a specific class, collaborate in a newly proposed fusion method to generate more accurate OVSS predictions. Our plug-and-play method, coined FLOSS, is orthogonal and complementary to existing OVSS methods, offering a ''free lunch'' to systematically improve OVSS without labels and additional training. Extensive experiments demonstrate that FLOSS consistently boosts state-of-the-art methods on various OVSS benchmarks. Moreover, the selected expert templates can generalize well from one dataset to others sharing the same semantic categories, yet exhibiting distribution shifts. Additionally, we obtain satisfactory improvements under a low-data regime, where only a few unlabeled images are available. Our code is available at https://github.com/yasserben/FLOSS .
- Abstract(参考訳): 最近のOpen-Vocabulary Semantic Segmentation (OVSS)モデルでは、CLIPモデルをセグメンテーションに拡張し、複数のテンプレート(例:<class>の写真、<class>のスケッチなど)を使用してクラスワイドなテキスト埋め込みを構築し、分類器として機能する。
本稿では,この現状に挑戦し,OVSSのテンプレートの影響について検討する。
経験的に、各クラスに対して、従来の平均化分類器を著しく上回る単一テンプレート分類器が存在することが観察される。
私たちはそれらをクラスエキスパートと呼んでいます。
ラベルのない画像にアクセスでき、トレーニングを伴わないため、単一テンプレート分類器のクラスワイド予測エントロピーを利用して、最も低いエントロピーをもたらすクラスワイドの専門家として選択することで、これらの専門家を推定する。
特定のクラスを専門とするすべての専門家は、より正確なOVSS予測を生成するために、新しく提案された融合手法で協力する。
FLOSSと呼ばれるプラグアンドプレイ方式は,既存のOVSS法と直交し,ラベルなしでOVSSを体系的に改善するための「フリーランチ」を提供する。
広範な実験により、FLOSSは様々なOVSSベンチマークの最先端メソッドを一貫して強化することを示した。
さらに、選択された専門家テンプレートは、ひとつのデータセットから同じセマンティックカテゴリを共有する他のデータセットによく一般化できるが、分散シフトを示す。
さらに,ラベルなし画像の少ない低データ方式では,良好な改善が得られている。
私たちのコードはhttps://github.com/yasserben/FLOSS で利用可能です。
関連論文リスト
- Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - Recurrent Early Exits for Federated Learning with Heterogeneous Clients [22.429334632124817]
フェデレーテッド・ラーニング(FL)は、プライバシを保存する方法で、複数のクライアントにまたがるモデルの分散学習を可能にした。
FLの主な課題の1つは、クライアントに様々なハードウェア能力を持たせることである。
本稿では,異なるサブモデルの特徴を1つの共有分類器に融合するReeFLという早期終了手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:01:53Z) - Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。
次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文 参考訳(メタデータ) (2024-03-31T14:37:25Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - ECKPN: Explicit Class Knowledge Propagation Network for Transductive
Few-shot Learning [53.09923823663554]
クラスレベルの知識は、ほんの一握りのサンプルから人間が容易に学習することができる。
本稿では,この問題に対処する明示的クラス知識伝達ネットワーク(ECKPN)を提案する。
筆者らは,4つの数ショット分類ベンチマークについて広範な実験を行い,提案したECKPNが最先端の手法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-06-16T02:29:43Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。