論文の概要: Revisiting Few-Shot Object Detection with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.14494v2
- Date: Sat, 20 Apr 2024 22:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:03:25.528106
- Title: Revisiting Few-Shot Object Detection with Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルによるFew-Shot物体検出の再検討
- Authors: Anish Madan, Neehar Peri, Shu Kong, Deva Ramanan,
- Abstract要約: FSOD(Few-shot Object Detection)ベンチマークは、アノテーションを限定した新しいカテゴリを検出するための高度な技術を持っている。
我々は,任意の外部データセット上で事前トレーニングされた検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
- 参考スコア(独自算出の注目度): 49.79495118650838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot object detection (FSOD) benchmarks have advanced techniques for detecting new categories with limited annotations. Existing benchmarks repurpose well-established datasets like COCO by partitioning categories into base and novel classes for pre-training and fine-tuning respectively. However, these benchmarks do not reflect how FSOD is deployed in practice. Rather than only pre-training on a small number of base categories, we argue that it is more practical to fine-tune a foundation model (e.g., a vision-language model (VLM) pre-trained on web-scale data) for a target domain. Surprisingly, we find that zero-shot inference from VLMs like GroundingDINO significantly outperforms the state-of-the-art (48.3 vs. 33.1 AP) on COCO. However, such zero-shot models can still be misaligned to target concepts of interest. For example, trailers on the web may be different from trailers in the context of autonomous vehicles. In this work, we propose Foundational FSOD, a new benchmark protocol that evaluates detectors pre-trained on any external datasets and fine-tuned on K-shots per target class. Further, we note that current FSOD benchmarks are actually federated datasets containing exhaustive annotations for each category on a subset of the data. We leverage this insight to propose simple strategies for fine-tuning VLMs with federated losses. We demonstrate the effectiveness of our approach on LVIS and nuImages, improving over prior work by 5.9 AP. Our code is available at https://github.com/anishmadan23/foundational_fsod
- Abstract(参考訳): FSOD(Few-shot Object Detection)ベンチマークは、アノテーションを限定した新しいカテゴリを検出するための高度な技術を持っている。
既存のベンチマークでは、COCOのような確立されたデータセットを、それぞれ、事前トレーニングと微調整のためのベースクラスと新しいクラスに分割することで再利用している。
しかし、これらのベンチマークは、FSODが実際にどのようにデプロイされているかを反映していない。
少数の基本カテゴリを事前学習するよりは、対象ドメインに対して基礎モデル(例えば、Webスケールデータに基づいて事前学習された視覚言語モデル(VLM))を微調整することがより現実的であると論じる。
驚いたことに、GroundingDINOのようなVLMからのゼロショット推論はCOCO上の最先端(48.3対33.1 AP)よりも著しく優れている。
しかし、そのようなゼロショットモデルは、それでも対象とする興味ある概念と一致しない。
例えば、ウェブ上のトレーラーは、自動運転車の文脈におけるトレーラーとは異なるかもしれない。
本研究では,任意の外部データセット上で事前学習し,ターゲットクラス毎のKショットを微調整した検出器を評価するための新しいベンチマークプロトコルであるFoundational FSODを提案する。
さらに、現在のFSODベンチマークは、データのサブセット上の各カテゴリに対する徹底的なアノテーションを含む、実際にフェデレーションされたデータセットである点に留意する。
我々はこの知見を利用して、フェデレートされた損失を伴う微調整VLMの簡単な戦略を提案する。
我々は LVIS と nu Images に対するアプローチの有効性を実証し,5.9 AP による先行作業よりも改善した。
私たちのコードはhttps://github.com/anishmadan23/foundational_fsodで利用可能です。
関連論文リスト
- DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - Cross-Domain Video Anomaly Detection without Target Domain Adaptation [38.823721272155616]
ビデオ異常検出(VAD)作業は、ソースからターゲットドメインへの適応のために、少なくともタスク関連ターゲットドメイントレーニングデータが利用可能なことを前提としている。
このためには、最初から動作するシステムを好むエンドユーザによる厳格なモデルチューニングが必要です。
論文 参考訳(メタデータ) (2022-12-14T03:48:00Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Revisiting Few-shot Relation Classification: Evaluation Data and
Classification Schemes [57.34346419239118]
教師付きRC用データセットから,より現実的な数ショットテストデータを得るための新しい手法を提案する。
これにより、FSL RCの新たな挑戦的なベンチマークが得られ、その上で、アートモデルの状態はパフォーマンスの低下を示している。
そこで我々はNOTAカテゴリを学習ベクトルとして表現する新しい分類手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T08:16:49Z) - Frustratingly Simple Few-Shot Object Detection [98.42824677627581]
希少なクラスにおける既存検出器の最後の層のみを微調整することは、数発の物体検出タスクに不可欠である。
このような単純なアプローチは、現在のベンチマークで約220ポイントのメタ学習方法より優れている。
論文 参考訳(メタデータ) (2020-03-16T00:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。