論文の概要: FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2504.10487v2
- Date: Wed, 30 Jul 2025 14:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:50.959622
- Title: FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation
- Title(参考訳): FLOSS:オープンボキャブラリセマンティックセグメンテーションにおけるフリーランチ
- Authors: Yasser Benigmim, Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Raoul de Charette,
- Abstract要約: 本稿では,OVSS(Open-Vocabulary Semantic)における平均的なクラスワイドテキスト埋め込みの実践に挑戦する。
ラベル付きデータやトレーニングを使わずにクラスエキスパートを推定する新しいアプローチを導入する。
単テンポレート分類器のクラスワイド予測エントロピーを利用して、最も信頼性の高いクラスエキスパートとして最も低いエントロピーを得るものを選択する。
- 参考スコア(独自算出の注目度): 25.106772176792653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we challenge the conventional practice in Open-Vocabulary Semantic Segmentation (OVSS) of using averaged class-wise text embeddings, which are typically obtained by encoding each class name with multiple templates (e.g., a photo of <class>, a sketch of a <class>). We investigate the impact of templates for OVSS, and find that for each class, there exist single-template classifiers--which we refer to as class-experts--that significantly outperform the conventional averaged classifier. First, to identify these class-experts, we introduce a novel approach that estimates them without any labeled data or training. By leveraging the class-wise prediction entropy of single-template classifiers, we select those yielding the lowest entropy as the most reliable class-experts. Second, we combine the outputs of class-experts in a new fusion process. Our plug-and-play method, coined FLOSS, is orthogonal and complementary to existing OVSS methods, offering an improvement without the need for additional labels or training. Extensive experiments show that FLOSS consistently enhances state-of-the-art OVSS models, generalizes well across datasets with different distribution shifts, and delivers substantial improvements in low-data scenarios where only a few unlabeled images are available. Our code is available at https://github.com/yasserben/FLOSS .
- Abstract(参考訳): 本稿では,複数のテンプレートで各クラス名をエンコードして得られる平均級テキスト埋め込みを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクス(OVSS)の慣行に挑戦する(例:<class>の写真,<class>のスケッチ)。
我々は,OVSSのテンプレートの影響を調査し,各クラスに対して,従来の平均分類器よりもはるかに優れた単一テンプレート分類器が存在することを確認した。
まず、これらのクラスエキスパートを特定するために、ラベル付きデータやトレーニングを使わずにそれらを推定する新しいアプローチを導入する。
単テンポレート分類器のクラスワイド予測エントロピーを利用して、最も信頼性の高いクラスエキスパートとして最も低いエントロピーを得るものを選択する。
第2に、新しい融合プロセスにおいて、クラスエキスパートの出力を結合する。
FLOSSと呼ばれるプラグイン・アンド・プレイ方式は,既存のOVSS法と直交し,追加ラベルやトレーニングを必要とせずに改善する。
広範な実験によると、FLOSSは最先端のOVSSモデルを一貫して強化し、分散シフトの異なるデータセットをまたがって適切に一般化し、ラベルなしのイメージがわずかであるローデータシナリオで大幅に改善されている。
私たちのコードはhttps://github.com/yasserben/FLOSS で利用可能です。
関連論文リスト
- Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - Recurrent Early Exits for Federated Learning with Heterogeneous Clients [22.429334632124817]
フェデレーテッド・ラーニング(FL)は、プライバシを保存する方法で、複数のクライアントにまたがるモデルの分散学習を可能にした。
FLの主な課題の1つは、クライアントに様々なハードウェア能力を持たせることである。
本稿では,異なるサブモデルの特徴を1つの共有分類器に融合するReeFLという早期終了手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:01:53Z) - Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。
次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文 参考訳(メタデータ) (2024-03-31T14:37:25Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - ECKPN: Explicit Class Knowledge Propagation Network for Transductive
Few-shot Learning [53.09923823663554]
クラスレベルの知識は、ほんの一握りのサンプルから人間が容易に学習することができる。
本稿では,この問題に対処する明示的クラス知識伝達ネットワーク(ECKPN)を提案する。
筆者らは,4つの数ショット分類ベンチマークについて広範な実験を行い,提案したECKPNが最先端の手法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-06-16T02:29:43Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。