論文の概要: Revisiting Few-Shot Object Detection with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.14494v3
- Date: Fri, 14 Jun 2024 14:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 19:24:01.447282
- Title: Revisiting Few-Shot Object Detection with Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルによるFew-Shot物体検出の再検討
- Authors: Anish Madan, Neehar Peri, Shu Kong, Deva Ramanan,
- Abstract要約: 我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データセット上で事前トレーニングされた検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
- 参考スコア(独自算出の注目度): 49.79495118650838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The era of vision-language models (VLMs) trained on large web-scale datasets challenges conventional formulations of "open-world" perception. In this work, we revisit the task of few-shot object detection (FSOD) in the context of recent foundational VLMs. First, we point out that zero-shot VLMs such as GroundingDINO significantly outperform state-of-the-art few-shot detectors (48 vs. 33 AP) on COCO. Despite their strong zero-shot performance, such foundational models may still be sub-optimal. For example, trucks on the web may be defined differently from trucks for a target application such as autonomous vehicle perception. We argue that the task of few-shot recognition can be reformulated as aligning foundation models to target concepts using a few examples. Interestingly, such examples can be multi-modal, using both text and visual cues, mimicking instructions that are often given to human annotators when defining a target concept of interest. Concretely, we propose Foundational FSOD, a new benchmark protocol that evaluates detectors pre-trained on any external datasets and fine-tuned on multi-modal (text and visual) K-shot examples per target class. We repurpose nuImages for Foundational FSOD, benchmark several popular open-source VLMs, and provide an empirical analysis of state-of-the-art methods. Lastly, we discuss our recent CVPR 2024 Foundational FSOD competition and share insights from the community. Notably, the winning team significantly outperforms our baseline by 23.9 mAP!
- Abstract(参考訳): 大規模なウェブスケールデータセットで訓練された視覚言語モデル(VLM)の時代は、従来の「オープンワールド」知覚の定式化に挑戦する。
本研究では,最近の基礎VLMの文脈において,小ショットオブジェクト検出(FSOD)の課題を再考する。
まず,GroundingDINOのようなゼロショットVLMはCOCO上の最先端のショット検出器(48対33AP)よりも著しく優れていることを指摘した。
強烈なゼロショット性能にもかかわらず、そのような基礎モデルは依然として準最適である。
例えば、ウェブ上のトラックは、自動運転車の知覚のようなターゲットアプリケーションのためにトラックとは異なる定義をすることができる。
数発の認識のタスクは、いくつかの例を用いて基礎モデルと目標概念を整合させるものとして再編成できると論じる。
興味深いことに、このような例はマルチモーダルで、テキストと視覚の両方を使って、ターゲットとなる関心の概念を定義する際に、人間のアノテータに与えられる命令を模倣することができる。
具体的には,新たなベンチマークプロトコルであるFoundational FSODを提案する。これは,任意の外部データセット上で事前トレーニングされた検出器を,ターゲットクラス毎のマルチモーダル(テキストおよびビジュアル)Kショットの例に基づいて微調整する。
ファウンデーションFSODのためのnuImageを再利用し、いくつかの人気のあるオープンソースVLMをベンチマークし、最先端の手法を実証分析する。
最後に、CVPR 2024 Foundational FSODコンペティションについて議論し、コミュニティからの洞察を共有します。
特に、優勝チームは、我々のベースラインを23.9mAPで大幅に上回っている。
関連論文リスト
- An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set [0.0]
デフォルト設定では、Human-Object Interaction(HOI)のパフォーマンスはほぼ飽和している。
本研究は、真理とランダムな任意の組み合わせの2つの実験的な設定を用いる。
マルチモーダル視覚基盤モデルのオープン語彙能力は,まだ完全には実現されていない。
論文 参考訳(メタデータ) (2024-08-11T13:40:02Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。