論文の概要: Single Domain Generalization for Few-Shot Counting via Universal Representation Matching
- arxiv url: http://arxiv.org/abs/2505.16778v1
- Date: Thu, 22 May 2025 15:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.390093
- Title: Single Domain Generalization for Few-Shot Counting via Universal Representation Matching
- Title(参考訳): ユニバーサル表現マッチングによるFew-Shotカウントの単一領域一般化
- Authors: Xianing Chen, Si Huo, Borui Jiang, Hailin Hu, Xinghao Chen,
- Abstract要約: URMと呼ばれる,最初の単一領域一般化小ショットカウントモデルであるUniversal Representation Matchingを提案する。
我々の主な貢献は、大規模事前学習された視覚言語モデルから抽出された普遍的な視覚言語表現を相関構築プロセスに組み込むことで、ドメイン性能を損なうことなく、ドメインシフトに対する堅牢性を大幅に向上させることである。
- 参考スコア(独自算出の注目度): 10.104590603002363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot counting estimates the number of target objects in an image using only a few annotated exemplars. However, domain shift severely hinders existing methods to generalize to unseen scenarios. This falls into the realm of single domain generalization that remains unexplored in few-shot counting. To solve this problem, we begin by analyzing the main limitations of current methods, which typically follow a standard pipeline that extract the object prototypes from exemplars and then match them with image feature to construct the correlation map. We argue that existing methods overlook the significance of learning highly generalized prototypes. Building on this insight, we propose the first single domain generalization few-shot counting model, Universal Representation Matching, termed URM. Our primary contribution is the discovery that incorporating universal vision-language representations distilled from a large scale pretrained vision-language model into the correlation construction process substantially improves robustness to domain shifts without compromising in domain performance. As a result, URM achieves state-of-the-art performance on both in domain and the newly introduced domain generalization setting.
- Abstract(参考訳): 少数の注釈付き例を使って、画像中のターゲットオブジェクトの数を見積もる。
しかし、ドメインシフトは、見えないシナリオに一般化する既存のメソッドを著しく妨げます。
これは単一の領域の一般化の領域に該当するが、これは数秒のカウントで未探索のままである。
この問題を解決するため,従来の手法の主な制約を解析し,通常,オブジェクトのプロトタイプを例から抽出する標準的なパイプラインに従って,画像特徴とマッチングして相関マップを構築する。
既存の手法は、高度に一般化されたプロトタイプを学習することの重要性を軽視している。
この知見に基づいて,ユビキタス表現マッチング (URM) と呼ばれる,最初の単一領域一般化小ショットカウントモデルを提案する。
我々の主な貢献は、大規模事前学習された視覚言語モデルから抽出された普遍的な視覚言語表現を相関構築プロセスに組み込むことで、ドメイン性能を損なうことなく、ドメインシフトに対する堅牢性を大幅に向上させることである。
その結果、URMはドメイン内および新しく導入されたドメイン一般化設定の両方で最先端の性能を達成する。
関連論文リスト
- Boundless Across Domains: A New Paradigm of Adaptive Feature and Cross-Attention for Domain Generalization in Medical Image Segmentation [1.93061220186624]
ドメイン不変表現学習は、ドメイン一般化の強力な方法である。
従来のアプローチでは、高い計算要求、トレーニングの不安定性、高次元データによる限られた有効性といった課題に直面していた。
本研究では,分布空間を探索しながら分布外サンプルを生成する適応的特徴ブレンディング(AFB)手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:06:24Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Cross-Domain Ensemble Distillation for Domain Generalization [17.575016642108253]
クロスドメイン・アンサンブル蒸留(XDED)という,シンプルで効果的な領域一般化法を提案する。
本手法は,同じラベルを持つトレーニングデータから,異なるドメインから出力ロジットのアンサンブルを生成し,そのアンサンブルとのミスマッチに対して各出力をペナルティ化する。
本手法で学習したモデルは, 敵攻撃や画像の破損に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-11-25T12:32:36Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - INDIGO: Intrinsic Multimodality for Domain Generalization [26.344372409315177]
マルチモーダル情報がどのように「本質的な」方法で活用され、システムが目に見えない領域の下で一般化されるかを検討する。
IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO)を提案する。
論文 参考訳(メタデータ) (2022-06-13T05:41:09Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - Domain-Class Correlation Decomposition for Generalizable Person
Re-Identification [34.813965300584776]
個人の再識別では、ドメインとクラスは相関する。
このドメイン・クラス間の相関関係により、ドメインの敵対的学習はクラスに関する特定の情報を失うことが示される。
我々のモデルは、大規模ドメイン一般化Re-IDベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-29T09:45:03Z) - Adaptive Domain-Specific Normalization for Generalizable Person
Re-Identification [81.30327016286009]
一般化可能なRe-IDのための適応型ドメイン固有正規化手法(AdsNorm)を提案する。
本研究では,一般化可能人物 Re-ID に対する適応領域特異的正規化手法 (AdsNorm) を提案する。
論文 参考訳(メタデータ) (2021-05-07T02:54:55Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。