論文の概要: FS-DETR: Few-Shot DEtection TRansformer with prompting and without
re-training
- arxiv url: http://arxiv.org/abs/2210.04845v2
- Date: Sun, 20 Aug 2023 12:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 02:35:53.602351
- Title: FS-DETR: Few-Shot DEtection TRansformer with prompting and without
re-training
- Title(参考訳): FS-DETR-Few-Shot Detection TRansformer の高速化と再トレーニングなし
- Authors: Adrian Bulat and Ricardo Guerrero and Brais Martinez and Georgios
Tzimiropoulos
- Abstract要約: 本稿では,視覚的プロンプトに基づく簡易かつ強力で少数ショット検出変換器 (FS-DETR) を初めて紹介する。
我々のシステムは、DeTRフレームワークの上に構築され、2つの主要なアイデアに基づいて拡張します。
微調整やマッチングを必要としないすべての方法よりもはるかに正確である。
- 参考スコア(独自算出の注目度): 43.94688751442093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is on Few-Shot Object Detection (FSOD), where given a few
templates (examples) depicting a novel class (not seen during training), the
goal is to detect all of its occurrences within a set of images. From a
practical perspective, an FSOD system must fulfil the following desiderata: (a)
it must be used as is, without requiring any fine-tuning at test time, (b) it
must be able to process an arbitrary number of novel objects concurrently while
supporting an arbitrary number of examples from each class and (c) it must
achieve accuracy comparable to a closed system. Towards satisfying (a)-(c), in
this work, we make the following contributions: We introduce, for the first
time, a simple, yet powerful, few-shot detection transformer (FS-DETR) based on
visual prompting that can address both desiderata (a) and (b). Our system
builds upon the DETR framework, extending it based on two key ideas: (1) feed
the provided visual templates of the novel classes as visual prompts during
test time, and (2) ``stamp'' these prompts with pseudo-class embeddings (akin
to soft prompting), which are then predicted at the output of the decoder.
Importantly, we show that our system is not only more flexible than existing
methods, but also, it makes a step towards satisfying desideratum (c).
Specifically, it is significantly more accurate than all methods that do not
require fine-tuning and even matches and outperforms the current
state-of-the-art fine-tuning based methods on the most well-established
benchmarks (PASCAL VOC & MSCOCO).
- Abstract(参考訳): 本稿では,Few-Shot Object Detection (FSOD) について述べる。Few-Shot Object Detection (FSOD) には,新しいクラス(トレーニング中は見えない)を描写したテンプレート(サンプル)がいくつか用意されている。
実用的な観点からは、fsodシステムは以下のデシデラタを満たす必要がある。
(a)テスト時に微調整を必要とせず、そのまま使用しなければならない。
(b)各クラスから任意の数の例をサポートしながら、任意の数の新規オブジェクトを同時に処理できなければならない。
(c) クローズドシステムに匹敵する精度を達成する必要がある。
満たすために
(a)-
c) 本研究では,まず,デシデラタの双方に対応可能な視覚プロンプトに基づいて,単純かつ強力で少数ショット検出トランスフォーマ(fs-detr)を導入する。
(a)及び
(b)
このシステムはdetrフレームワークを基盤として,(1)新規クラスの提供されたビジュアルテンプレートをテスト期間中に視覚的にプロンプトとして与える,(2)疑似クラス埋め込み(ソフトプロンプトと同じような)でこれらのプロンプトを ``stamp''' する,という2つの重要なアイデアに基づいて拡張する。
重要なのは,我々のシステムは既存の手法よりも柔軟であるだけでなく,デシデラトゥムを満たすための一歩を踏み出したことである。
(c)。
具体的には、最もよく確立されたベンチマーク (PASCAL VOC & MSCOCO) 上での最先端の微調整手法よりもはるかに正確である。
関連論文リスト
- Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。
シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文 参考訳(メタデータ) (2024-08-22T15:13:27Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Query Adaptive Few-Shot Object Detection with Heterogeneous Graph
Convolutional Networks [33.446875089255876]
Few-shot Object Detection (FSOD) は、いくつかの例を使って見えないオブジェクトを検出することを目的としている。
異種グラフ畳み込みネットワークを用いた新しいFSODモデルを提案する。
論文 参考訳(メタデータ) (2021-12-17T22:08:15Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Incremental Few-Shot Object Detection [96.02543873402813]
OpeN-ended Centre nEtは、いくつかの例でクラスオブジェクトの検出を漸進的に学習する検出器である。
ONCEはインクリメンタルな学習パラダイムを十分に尊重しており、新しいクラス登録では、数発のトレーニングサンプルを1回だけフォワードパスするだけでよい。
論文 参考訳(メタデータ) (2020-03-10T12:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。