論文の概要: Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2311.00278v1
- Date: Wed, 1 Nov 2023 04:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:56:19.632888
- Title: Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection
- Title(参考訳): Few-Shotオブジェクト検出のための画像言語類似性を用いた再構成
- Authors: Min Jae Jung, Seung Dae Han and Joohee Kim
- Abstract要約: ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。
近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。
我々は、より高速なR-CNNを拡張するFew-shot Object Detection (RISF)のための画像言語類似性を用いた再構成を提案する。
- 参考スコア(独自算出の注目度): 4.0208298639821525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Few-shot object detection, which focuses on detecting novel objects with few
labels, is an emerging challenge in the community. Recent studies show that
adapting a pre-trained model or modified loss function can improve performance.
In this paper, we explore leveraging the power of Contrastive Language-Image
Pre-training (CLIP) and hard negative classification loss in low data setting.
Specifically, we propose Re-scoring using Image-language Similarity for
Few-shot object detection (RISF) which extends Faster R-CNN by introducing
Calibration Module using CLIP (CM-CLIP) and Background Negative Re-scale Loss
(BNRL). The former adapts CLIP, which performs zero-shot classification, to
re-score the classification scores of a detector using image-class
similarities, the latter is modified classification loss considering the
punishment for fake backgrounds as well as confusing categories on a
generalized few-shot object detection dataset. Extensive experiments on MS-COCO
and PASCAL VOC show that the proposed RISF substantially outperforms the
state-of-the-art approaches. The code will be available.
- Abstract(参考訳): ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。
近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。
本稿では,CLIP(Contrastive Language- Image Pre-Training)のパワーと低データセットにおける負の分類損失の活用について検討する。
具体的には、CLIP(CM-CLIP)とBNRL(Back background Negative Re-scale Loss)を用いたキャリブレーションモジュールを導入し、より高速なR-CNNを拡張したFew-shot Object Detection(RISF)のための画像言語類似性を用いた再構成を提案する。
前者はゼロショット分類を行い、画像クラスの類似性を用いて検出器の分類スコアを再スコアリングし、後者は偽の背景に対する罰や一般化された少数ショットオブジェクト検出データセットにおけるカテゴリの混乱を考慮した分類損失を修正する。
MS-COCOとPASCAL VOCの大規模な実験により、提案されたRISFは最先端のアプローチを大幅に上回っていることが示された。
コードは利用可能だ。
関連論文リスト
- RAFIC: Retrieval-Augmented Few-shot Image Classification [0.0]
少ないショット画像分類は、見えない画像を互いに排他的なクラスに分類するタスクである。
我々は,検索した画像の付加集合を用いて,Kの集合を増大させる手法を開発した。
我々は,RAFICが2つの挑戦的データセットをまたいだ数ショット画像分類の性能を著しく向上させることを実証した。
論文 参考訳(メタデータ) (2023-12-11T22:28:51Z) - Spuriosity Rankings for Free: A Simple Framework for Last Layer
Retraining Based on Object Detection [5.199218657137718]
本稿では,スプリアスを伴わない画像の識別のための新しいランキングフレームワークを提案する。
対象物検出装置を画像中の対象物の存在を評価する尺度として用いる。
次に、このスコアに基づいて画像がソートされ、最も高いスコアを持つデータのサブセットに基づいてモデルの最後の層が再トレーニングされる。
論文 参考訳(メタデータ) (2023-10-31T18:44:03Z) - Zero-Shot Visual Classification with Guided Cropping [9.321383320998262]
対象物に対するゼロショット分類器の焦点を増大させるため,既処理段階におけるオフザシェルフゼロショットオブジェクト検出モデルを提案する。
提案手法はアーキテクチャやデータセット間のゼロショット分類を改良し,小型オブジェクトに好適に適用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-12T20:09:12Z) - Image-free Classifier Injection for Zero-Shot Classification [72.66409483088995]
ゼロショット学習モデルは、訓練中に見られなかったクラスからのサンプルのイメージ分類において顕著な結果が得られる。
我々は,画像データを用いることなく,ゼロショット分類機能を備えた事前学習モデルの装備を目指す。
提案したイメージフリーインジェクション・ウィズ・セマンティックス (ICIS) でこれを実現する。
論文 参考訳(メタデータ) (2023-08-21T09:56:48Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Experience feedback using Representation Learning for Few-Shot Object
Detection on Aerial Images [2.8560476609689185]
大規模なリモートセンシング画像データセットであるDOTAを用いて,本手法の性能評価を行った。
特に、数発のオブジェクト検出タスクの固有の弱点を強調します。
論文 参考訳(メタデータ) (2021-09-27T13:04:53Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Meta Faster R-CNN: Towards Accurate Few-Shot Object Detection with
Attentive Feature Alignment [33.446875089255876]
Few-shot Object Detection (FSOD) は、少数の例でオブジェクトを検出することを目的としている。
本稿では,データ不足ベースクラスから学習したメタ知識を新しいクラスに転送することで,メタラーニングに基づくマイショットオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T19:01:27Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。