論文の概要: Revisiting Few-Shot Object Detection with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.14494v1
- Date: Fri, 22 Dec 2023 07:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:53:57.584852
- Title: Revisiting Few-Shot Object Detection with Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルによるFew-Shot物体検出の再検討
- Authors: Anish Madan, Neehar Peri, Shu Kong, Deva Ramanan
- Abstract要約: FSOD(Few-shot Object Detection)ベンチマークは、アノテーションを限定した新しいカテゴリを検出するための高度な技術を持っている。
我々は,任意の外部データセット上で事前訓練された検出器と,ターゲットクラス毎のKショットに微調整された検出器を評価するための,新しいベンチマークプロトコルであるFoundational FSODを提案する。
- 参考スコア(独自算出の注目度): 54.39740692635763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot object detection (FSOD) benchmarks have advanced techniques for
detecting new categories with limited annotations. Existing benchmarks
repurpose well-established datasets like COCO by partitioning categories into
base and novel classes for pre-training and fine-tuning respectively. However,
these benchmarks do not reflect how FSOD is deployed in practice. Rather than
only pre-training on a small number of base categories, we argue that it is
more practical to fine-tune a foundation model (e.g., a vision-language model
(VLM) pre-trained on web-scale data) for a target domain. Surprisingly, we find
that zero-shot inference from VLMs like GroundingDINO significantly outperforms
the state-of-the-art (48.3 vs. 33.1 AP) on COCO. However, such zero-shot models
can still be misaligned to target concepts of interest. For example, trailers
on the web may be different from trailers in the context of autonomous
vehicles. In this work, we propose Foundational FSOD, a new benchmark protocol
that evaluates detectors pre-trained on any external datasets and fine-tuned on
K-shots per target class. Further, we note that current FSOD benchmarks are
actually federated datasets containing exhaustive annotations for each category
on a subset of the data. We leverage this insight to propose simple strategies
for fine-tuning VLMs with federated losses. We demonstrate the effectiveness of
our approach on LVIS and nuImages, improving over prior work by 5.9 AP.
- Abstract(参考訳): few-shot object detection (fsod)ベンチマークには、制限されたアノテーションで新しいカテゴリを検出するための高度な技術がある。
既存のベンチマークでは、COCOのような確立されたデータセットを、それぞれ、事前トレーニングと微調整のためのベースクラスと新しいクラスに分割することで再利用している。
しかし、これらのベンチマークは、実際にfsodをデプロイする方法を反映していない。
少数のベースカテゴリを事前学習するよりも、ターゲットドメインに対して基礎モデル(例えば、webスケールデータで事前学習された視覚言語モデル(vlm))を微調整することがより実用的であると主張する。
驚いたことに、GroundingDINOのようなVLMからのゼロショット推論はCOCO上の最先端(48.3対33.1 AP)よりも著しく優れている。
しかし、そのようなゼロショットモデルは、それでも対象とする興味ある概念と一致しない。
例えば、web上のトレーラーは、自動運転車の文脈でトレーラーとは異なるかもしれない。
本研究では,任意の外部データセット上で事前学習し,ターゲットクラス毎のKショットを微調整した検出器を評価するための新しいベンチマークプロトコルであるFoundational FSODを提案する。
さらに、現在のfsodベンチマークは、実際にはデータサブセット上の各カテゴリに対する徹底したアノテーションを含むフェデレーションデータセットである点にも注目する。
我々はこの知見を利用して、連合的損失を伴う微調整VLMの簡単な戦略を提案する。
我々は LVIS と nu Images に対するアプローチの有効性を実証し,5.9 AP による先行作業よりも改善した。
関連論文リスト
- DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object
Detection [83.57616404714172]
Open-vocabulary Object Detection (OVOD) は、トレーニング中に観察されるクラス以外のオブジェクトを検出することを目的としている。
本研究は、事前学習された視覚言語モデル(VLM)のゼロショット分類能力を活用して、新しいクラスの提案を直接発見する単純な効果的な戦略を示す。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - Cross-Domain Video Anomaly Detection without Target Domain Adaptation [38.823721272155616]
ビデオ異常検出(VAD)作業は、ソースからターゲットドメインへの適応のために、少なくともタスク関連ターゲットドメイントレーニングデータが利用可能なことを前提としている。
このためには、最初から動作するシステムを好むエンドユーザによる厳格なモデルチューニングが必要です。
論文 参考訳(メタデータ) (2022-12-14T03:48:00Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Revisiting Few-shot Relation Classification: Evaluation Data and
Classification Schemes [57.34346419239118]
教師付きRC用データセットから,より現実的な数ショットテストデータを得るための新しい手法を提案する。
これにより、FSL RCの新たな挑戦的なベンチマークが得られ、その上で、アートモデルの状態はパフォーマンスの低下を示している。
そこで我々はNOTAカテゴリを学習ベクトルとして表現する新しい分類手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T08:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。