論文の概要: Zero-Shot Visual Classification with Guided Cropping
- arxiv url: http://arxiv.org/abs/2309.06581v1
- Date: Tue, 12 Sep 2023 20:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 16:21:25.721894
- Title: Zero-Shot Visual Classification with Guided Cropping
- Title(参考訳): ガイドクロッピングによるゼロショット視覚分類
- Authors: Piyapat Saranrittichai, Mauricio Munoz, Volker Fischer and Chaithanya
Kumar Mummadi
- Abstract要約: 対象物に対するゼロショット分類器の焦点を増大させるため,既処理段階におけるオフザシェルフゼロショットオブジェクト検出モデルを提案する。
提案手法はアーキテクチャやデータセット間のゼロショット分類を改良し,小型オブジェクトに好適に適用できることを実証的に示す。
- 参考スコア(独自算出の注目度): 9.321383320998262
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pretrained vision-language models, such as CLIP, show promising zero-shot
performance across a wide variety of datasets. For closed-set classification
tasks, however, there is an inherent limitation: CLIP image encoders are
typically designed to extract generic image-level features that summarize
superfluous or confounding information for the target tasks. This results in
degradation of classification performance, especially when objects of interest
cover small areas of input images. In this work, we propose CLIP with Guided
Cropping (GC-CLIP), where we use an off-the-shelf zero-shot object detection
model in a preprocessing step to increase focus of zero-shot classifier to the
object of interest and minimize influence of extraneous image regions. We
empirically show that our approach improves zero-shot classification results
across architectures and datasets, favorably for small objects.
- Abstract(参考訳): CLIPのような事前訓練されたビジョン言語モデルでは、さまざまなデータセットでゼロショットのパフォーマンスが期待できる。
しかし、クローズドセットの分類タスクには固有の制限がある: CLIPイメージエンコーダは典型的には、ターゲットタスクの過剰な情報や不明確な情報を要約する一般的な画像レベルの特徴を抽出するために設計されている。
これにより、特に興味の対象が入力画像の小さな領域をカバーする場合、分類性能が低下する。
本研究では,ゼロショット分類器の被写体へのフォーカスを増加させ,外部画像領域の影響を最小限に抑えるために,既成のゼロショット物体検出モデルを用いた映像クリップ(gc-clip)を提案する。
提案手法はアーキテクチャやデータセット間のゼロショット分類を改良し,小型オブジェクトに好適に適用できることを実証的に示す。
関連論文リスト
- TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning [30.506968671472517]
我々はTRaining-Free Object-Part Enhancement (TROPE)を紹介する。
TROPEは、オブジェクト検出の提案と自然言語処理技術を使用して、追加のオブジェクト部分の詳細でベースキャプションを豊かにする。
評価の結果,TROPEはテスト対象のゼロショットICアプローチすべてに対して一貫して性能を向上し,細粒度ICデータセットの最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T05:24:01Z) - Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection [4.0208298639821525]
ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。
近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。
我々は、より高速なR-CNNを拡張するFew-shot Object Detection (RISF)のための画像言語類似性を用いた再構成を提案する。
論文 参考訳(メタデータ) (2023-11-01T04:04:34Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - A Low-Shot Object Counting Network With Iterative Prototype Adaptation [14.650207945870598]
画像中の任意の意味カテゴリーの低ショットカウントは、注釈付き例(二ショット)やなし例(無ショット)のみを用いて検討する。
既存の手法は、形状情報(例えばサイズとアスペクト)を無視した特徴プーリングによってクエリを抽出し、オブジェクトのローカライズ精度を低下させ、推定値をカウントする。
反復型プロトタイプ適応(LOCA)を用いた低ショットオブジェクトカウントネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-15T15:39:23Z) - Injecting Image Details into CLIP's Feature Space [29.450159407113155]
本稿では,高解像度画像に対して単一の特徴表現を生成できる効率的なフレームワークを提案する。
このフレームワークでは、慎重に設計した画像パッチ法から抽出したCLIP機能に基づいて、機能融合モデルを訓練する。
実世界および合成データセット上のクラストリガークエリから画像を取得することで、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2022-08-31T06:18:10Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Improving Few-shot Learning with Weakly-supervised Object Localization [24.3569501375842]
画像のクラス関連領域から特徴を抽出してクラス表現を生成する新しいフレームワークを提案する。
提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。
論文 参考訳(メタデータ) (2021-05-25T07:39:32Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。