論文の概要: OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer
- arxiv url: http://arxiv.org/abs/2407.10655v1
- Date: Mon, 15 Jul 2024 12:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:21:26.999704
- Title: OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer
- Title(参考訳): OVLW-DETR:Open-Vocabulary Light-Weighted Detection Transformer
- Authors: Yu Wang, Xiangbo Su, Qiang Chen, Xinyu Zhang, Teng Xi, Kun Yao, Errui Ding, Gang Zhang, Jingdong Wang,
- Abstract要約: 本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 63.141027246418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary object detection focusing on detecting novel categories guided by natural language. In this report, we propose Open-Vocabulary Light-Weighted Detection Transformer (OVLW-DETR), a deployment friendly open-vocabulary detector with strong performance and low latency. Building upon OVLW-DETR, we provide an end-to-end training recipe that transferring knowledge from vision-language model (VLM) to object detector with simple alignment. We align detector with the text encoder from VLM by replacing the fixed classification layer weights in detector with the class-name embeddings extracted from the text encoder. Without additional fusing module, OVLW-DETR is flexible and deployment friendly, making it easier to implement and modulate. improving the efficiency of interleaved attention computation. Experimental results demonstrate that the proposed approach is superior over existing real-time open-vocabulary detectors on standard Zero-Shot LVIS benchmark. Source code and pre-trained models are available at [https://github.com/Atten4Vis/LW-DETR].
- Abstract(参考訳): 自然言語で案内される新しいカテゴリーの検出に焦点をあてたオープン語彙オブジェクト検出
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
OVLW-DETRをベースとして,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提供する。
我々は, テキストエンコーダから抽出したクラス名埋め込みに, 固定された分類層重みを置き換えることで, VLMのテキストエンコーダと整列する。
追加のファンクションモジュールがなければ、OVLW-DETRは柔軟で、デプロイがしやすいため、実装や修正が容易になる。
インターリーブされた注意計算の効率を向上させること。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
ソースコードと事前トレーニングされたモデルは[https://github.com/Atten4Vis/LW-DETR]で入手できる。
関連論文リスト
- GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。
Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。
さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文 参考訳(メタデータ) (2024-07-17T09:40:15Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Prompt-Guided Transformers for End-to-End Open-Vocabulary Object
Detection [10.482805367361818]
Prompt-OVDはオープン語彙オブジェクト検出のための効率的かつ効果的なフレームワークである。
CLIPからのクラス埋め込みをプロンプトとして使用し、Transformerデコーダを誘導して、ベースクラスと新規クラスのオブジェクトを検出する。
OV-COCOおよびOVLVISデータセットに関する実験により、Prompt-OVDが21.2倍高速な推論速度を達成することが示された。
論文 参考訳(メタデータ) (2023-03-25T07:31:08Z) - F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models [54.21757555804668]
F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
論文 参考訳(メタデータ) (2022-09-30T17:59:52Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z) - Transformer-Encoder Detector Module: Using Context to Improve Robustness
to Adversarial Attacks on Object Detection [12.521662223741673]
本稿では、オブジェクトインスタンスのラベル付けを改善するために、オブジェクト検出器に適用可能な新しいコンテキストモジュールを提案する。
提案モデルは,ベースラインのFaster-RCNN検出器と比較して,mAP,F1スコア,AUC平均スコアを最大13%向上させる。
論文 参考訳(メタデータ) (2020-11-13T15:52:53Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。