論文の概要: Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2311.00278v1
- Date: Wed, 1 Nov 2023 04:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:56:19.632888
- Title: Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection
- Title(参考訳): Few-Shotオブジェクト検出のための画像言語類似性を用いた再構成
- Authors: Min Jae Jung, Seung Dae Han and Joohee Kim
- Abstract要約: ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。
近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。
我々は、より高速なR-CNNを拡張するFew-shot Object Detection (RISF)のための画像言語類似性を用いた再構成を提案する。
- 参考スコア(独自算出の注目度): 4.0208298639821525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Few-shot object detection, which focuses on detecting novel objects with few
labels, is an emerging challenge in the community. Recent studies show that
adapting a pre-trained model or modified loss function can improve performance.
In this paper, we explore leveraging the power of Contrastive Language-Image
Pre-training (CLIP) and hard negative classification loss in low data setting.
Specifically, we propose Re-scoring using Image-language Similarity for
Few-shot object detection (RISF) which extends Faster R-CNN by introducing
Calibration Module using CLIP (CM-CLIP) and Background Negative Re-scale Loss
(BNRL). The former adapts CLIP, which performs zero-shot classification, to
re-score the classification scores of a detector using image-class
similarities, the latter is modified classification loss considering the
punishment for fake backgrounds as well as confusing categories on a
generalized few-shot object detection dataset. Extensive experiments on MS-COCO
and PASCAL VOC show that the proposed RISF substantially outperforms the
state-of-the-art approaches. The code will be available.
- Abstract(参考訳): ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。
近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。
本稿では,CLIP(Contrastive Language- Image Pre-Training)のパワーと低データセットにおける負の分類損失の活用について検討する。
具体的には、CLIP(CM-CLIP)とBNRL(Back background Negative Re-scale Loss)を用いたキャリブレーションモジュールを導入し、より高速なR-CNNを拡張したFew-shot Object Detection(RISF)のための画像言語類似性を用いた再構成を提案する。
前者はゼロショット分類を行い、画像クラスの類似性を用いて検出器の分類スコアを再スコアリングし、後者は偽の背景に対する罰や一般化された少数ショットオブジェクト検出データセットにおけるカテゴリの混乱を考慮した分類損失を修正する。
MS-COCOとPASCAL VOCの大規模な実験により、提案されたRISFは最先端のアプローチを大幅に上回っていることが示された。
コードは利用可能だ。
関連論文リスト
- CSPCL: Category Semantic Prior Contrastive Learning for Deformable DETR-Based Prohibited Item Detectors [8.23801404004195]
X線画像に基づく禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
前景と後景の結合により、自然画像用に設計された一般的な検出器は性能が良くない。
本稿では,分類器が認識するクラスプロトタイプとコンテンツクエリとを整合させるカテゴリセマンティック事前比較学習機構を提案する。
論文 参考訳(メタデータ) (2025-01-28T03:04:22Z) - Few-shot Algorithm Assurance [11.924406021826606]
深層学習モデルは 画像の歪みに弱い
画像歪み下のモデル保証は分類タスクである。
条件付きレベルセット推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-28T21:11:55Z) - CLIP-FSAC++: Few-Shot Anomaly Classification with Anomaly Descriptor Based on CLIP [22.850815902535988]
筆者らは,CLIP-FSAC++と呼ばれる一段階の訓練を施した効果的な数ショット異常分類フレームワークを提案する。
異常記述子では、画像からテキストへのクロスアテンションモジュールを使用して、画像固有のテキスト埋め込みを得る。
その結果,VisAおよびMVTEC-ADを1, 2, 4, 8ショット設定で非正規ショット異常分類し,本手法の総合的な評価実験を行った。
論文 参考訳(メタデータ) (2024-12-05T02:44:45Z) - Multi-Level Correlation Network For Few-Shot Image Classification [36.44416763952161]
ベースクラスからラベル付き画像がほとんどない新規クラスを識別することを目的とした画像分類がほとんどない。
ローカル情報を効果的に取得してこの問題に対処するために,FSIC のためのマルチレベル相関ネットワーク (MLCN) を提案する。
論文 参考訳(メタデータ) (2024-12-04T09:36:24Z) - RAFIC: Retrieval-Augmented Few-shot Image Classification [0.0]
少ないショット画像分類は、見えない画像を互いに排他的なクラスに分類するタスクである。
我々は,検索した画像の付加集合を用いて,Kの集合を増大させる手法を開発した。
我々は,RAFICが2つの挑戦的データセットをまたいだ数ショット画像分類の性能を著しく向上させることを実証した。
論文 参考訳(メタデータ) (2023-12-11T22:28:51Z) - Image-free Classifier Injection for Zero-Shot Classification [72.66409483088995]
ゼロショット学習モデルは、訓練中に見られなかったクラスからのサンプルのイメージ分類において顕著な結果が得られる。
我々は,画像データを用いることなく,ゼロショット分類機能を備えた事前学習モデルの装備を目指す。
提案したイメージフリーインジェクション・ウィズ・セマンティックス (ICIS) でこれを実現する。
論文 参考訳(メタデータ) (2023-08-21T09:56:48Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。