論文の概要: FS-DETR: Few-Shot DEtection TRansformer with prompting and without
re-training
- arxiv url: http://arxiv.org/abs/2210.04845v1
- Date: Mon, 10 Oct 2022 17:03:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:58:00.139402
- Title: FS-DETR: Few-Shot DEtection TRansformer with prompting and without
re-training
- Title(参考訳): FS-DETR-Few-Shot Detection TRansformer の高速化と再トレーニングなし
- Authors: Adrian Bulat and Ricardo Guerrero and Brais Martinez and Georgios
Tzimiropoulos
- Abstract要約: 本稿では,FS-DETR(FS-DETR)を初めて導入する。
我々のシステムは、DeTRフレームワークの上に構築され、2つの主要なアイデアに基づいて拡張します。
我々は,既存の手法よりも柔軟であるだけでなく,デシプラタム(c)を満たすための一歩を踏み出した。
- 参考スコア(独自算出の注目度): 55.18997588195015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is on Few-Shot Object Detection (FSOD), where given a few
templates (examples) depicting a novel class (not seen during training), the
goal is to detect all of its occurrences within a set of images. From a
practical perspective, an FSOD system must fulfil the following desiderata: (a)
it must be used as is, without requiring any fine-tuning at test time, (b) it
must be able to process an arbitrary number of novel objects concurrently while
supporting an arbitrary number of examples from each class and (c) it must
achieve accuracy comparable to a closed system. While there are (relatively)
few systems that support (a), to our knowledge, there is no system supporting
(b) and (c). In this work, we make the following contributions: We introduce,
for the first time, a simple, yet powerful, few-shot detection transformer
(FS-DETR) that can address both desiderata (a) and (b). Our system builds upon
the DETR framework, extending it based on two key ideas: (1) feed the provided
visual templates of the novel classes as visual prompts during test time, and
(2) ``stamp'' these prompts with pseudo-class embeddings, which are then
predicted at the output of the decoder. Importantly, we show that our system is
not only more flexible than existing methods, but also, making a step towards
satisfying desideratum (c), it is more accurate, matching and outperforming the
current state-of-the-art on the most well-established benchmarks (PASCAL VOC &
MSCOCO) for FSOD. Code will be made available.
- Abstract(参考訳): 本稿では,Few-Shot Object Detection (FSOD) について述べる。Few-Shot Object Detection (FSOD) には,新しいクラス(トレーニング中は見えない)を描写したテンプレート(サンプル)がいくつか用意されている。
実用的な観点からは、fsodシステムは以下のデシデラタを満たす必要がある。
(a)テスト時に微調整を必要とせず、そのまま使用しなければならない。
(b)各クラスから任意の数の例をサポートしながら、任意の数の新規オブジェクトを同時に処理できなければならない。
(c) クローズドシステムに匹敵する精度を達成する必要がある。
比較的)サポートしているシステムはほとんどありませんが
(a)私たちの知る限りでは、システムのサポートはありません
(b)
(c)。
本研究では, 両デシダラタに対処可能な, 単純かつ強力かつ少数ショット検出変換器 (FS-DETR) を初めて紹介する。
(a)及び
(b)
このシステムはdetrフレームワークを基盤として,(1)新規クラスの提供されたビジュアルテンプレートをテスト時間内に視覚的にプロンプトとして与える,(2)疑似クラス埋め込みでこれらのプロンプトを ``stamp''' としてデコーダの出力で予測する,という2つの重要なアイデアに基づいて拡張する。
重要なのは,我々のシステムは既存の手法よりも柔軟であるだけでなく,デシデラタムを満たすための一歩を踏み出していることである。
(c) fsodの最も確立されたベンチマーク (pascal voc & mscoco) では,現在の最先端技術よりも精度が高く,パフォーマンスが向上している。
コードは利用可能になる。
関連論文リスト
- Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。
シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文 参考訳(メタデータ) (2024-08-22T15:13:27Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Query Adaptive Few-Shot Object Detection with Heterogeneous Graph
Convolutional Networks [33.446875089255876]
Few-shot Object Detection (FSOD) は、いくつかの例を使って見えないオブジェクトを検出することを目的としている。
異種グラフ畳み込みネットワークを用いた新しいFSODモデルを提案する。
論文 参考訳(メタデータ) (2021-12-17T22:08:15Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Incremental Few-Shot Object Detection [96.02543873402813]
OpeN-ended Centre nEtは、いくつかの例でクラスオブジェクトの検出を漸進的に学習する検出器である。
ONCEはインクリメンタルな学習パラダイムを十分に尊重しており、新しいクラス登録では、数発のトレーニングサンプルを1回だけフォワードパスするだけでよい。
論文 参考訳(メタデータ) (2020-03-10T12:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。