論文の概要: Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models
- arxiv url: http://arxiv.org/abs/2410.19635v1
- Date: Fri, 25 Oct 2024 15:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:30.215860
- Title: Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models
- Title(参考訳): 凍結-DETR:凍結基礎モデルからのイメージ理解によるDETRの強化
- Authors: Shenghao Fu, Junkai Yan, Qize Yang, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng,
- Abstract要約: 近年のビジョン基礎モデルでは、普遍的な表現を抽出し、様々なタスクにおいて印象的な能力を示すことができる。
凍結基礎モデルは, 物体検出のための事前訓練を受けなくても, 汎用的特徴増強器として利用できることを示す。
- 参考スコア(独自算出の注目度): 47.18069715855738
- License:
- Abstract: Recent vision foundation models can extract universal representations and show impressive abilities in various tasks. However, their application on object detection is largely overlooked, especially without fine-tuning them. In this work, we show that frozen foundation models can be a versatile feature enhancer, even though they are not pre-trained for object detection. Specifically, we explore directly transferring the high-level image understanding of foundation models to detectors in the following two ways. First, the class token in foundation models provides an in-depth understanding of the complex scene, which facilitates decoding object queries in the detector's decoder by providing a compact context. Additionally, the patch tokens in foundation models can enrich the features in the detector's encoder by providing semantic details. Utilizing frozen foundation models as plug-and-play modules rather than the commonly used backbone can significantly enhance the detector's performance while preventing the problems caused by the architecture discrepancy between the detector's backbone and the foundation model. With such a novel paradigm, we boost the SOTA query-based detector DINO from 49.0% AP to 51.9% AP (+2.9% AP) and further to 53.8% AP (+4.8% AP) by integrating one or two foundation models respectively, on the COCO validation set after training for 12 epochs with R50 as the detector's backbone.
- Abstract(参考訳): 近年のビジョン基礎モデルでは、普遍的な表現を抽出し、様々なタスクにおいて印象的な能力を示すことができる。
しかし、オブジェクト検出へのそれらの応用は、特に微調整をすることなく、ほとんど見過ごされている。
本研究では, 凍結基礎モデルが, 物体検出のための事前訓練を受けなくても, 汎用的な特徴強調器となりうることを示す。
具体的には,基礎モデルの高レベル画像理解を,次の2つの方法で直接検出する方法について検討する。
まず、基礎モデルのクラストークンは、複雑なシーンの詳細な理解を提供し、コンパクトなコンテキストを提供することで、検出器のデコーダ内のオブジェクトクエリのデコードを容易にする。
さらに、基礎モデルのパッチトークンは、意味的な詳細を提供することで、検出器のエンコーダの機能を強化することができる。
冷凍ファンデーションモデルを一般的に使用されるバックボーンではなくプラグアンドプレイモジュールとして利用すると、検出器のバックボーンとファンデーションモデルとのアーキテクチャの相違による問題を防止しつつ、検出器の性能を大幅に向上させることができる。
このような新しいパラダイムにより、SOTAクエリベースの検出器DINOを49.0% APから51.9% AP(+2.9% AP)に、さらに53.8% AP(+4.8% AP)にそれぞれ1つまたは2つの基礎モデルを統合することで、検出器のバックボーンとしてR50と12エポックのトレーニング後のCOバリデーションセットに強化する。
関連論文リスト
- VFM-Det: Towards High-Performance Vehicle Detection via Large Foundation Models [21.186456742407007]
本稿では,VFM-Detと呼ばれる,事前訓練された基礎車両モデル(VehicleMAE)と大規模言語モデル(T5)に基づく新しい車両検出パラダイムを提案する。
我々のモデルは、それぞれ$AP_0.5$と$AP_0.75$で、ベースラインアプローチを$+5.1%$、$+6.2%$で改善する。
論文 参考訳(メタデータ) (2024-08-23T12:39:02Z) - DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM [81.75988648572347]
DetToolChainはマルチモーダル大言語モデル(MLLM)のゼロショットオブジェクト検出能力を解き放つ新しいパラダイムである。
提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。
DetToolChainを用いたGPT-4Vは,オープン語彙検出のための新しいクラスセットにおいて,最先端のオブジェクト検出器を+21.5%AP50で改善することを示す。
論文 参考訳(メタデータ) (2024-03-19T06:54:33Z) - InstaGen: Enhancing Object Detection by Training on Synthetic Dataset [59.445498550159755]
本稿では,オブジェクト検出機能の向上,例えばカテゴリ拡大や検出性能の向上など,新たなパラダイムを提案する。
我々は、インスタンスレベルのグラウンドヘッドを事前訓練された生成拡散モデルに統合し、生成された画像のインスタンスをローカライズする機能で拡張する。
我々は、InstaGenと呼ばれる拡散モデルの強化版がデータシンセサイザーとして機能することを示すために、徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-08T18:59:53Z) - Tucker Bilinear Attention Network for Multi-scale Remote Sensing Object
Detection [10.060030309684953]
リモートセンシング対象の大規模変動は、VHRリモートセンシング対象検出における大きな課題の1つである。
本稿では2つの新しいモジュール, Guided Attention と Tucker Bilinear Attention を提案する。
2つのモジュールに基づいて、我々は新しいマルチスケールリモートセンシングオブジェクト検出フレームワークを構築した。
論文 参考訳(メタデータ) (2023-03-09T15:20:03Z) - DEYO: DETR with YOLO for Step-by-Step Object Detection [0.0]
本稿では, YOLO (DEYO) を用いた新しい2段階物体検出モデルDETRを提案する。
第1ステージは高品質なクエリと第2ステージへのアンカー供給を提供し、オリジナルのDETRモデルと比較して第2ステージの性能と効率を改善した。
実験の結果、DEYOは12時間で50.6 AP、52.1 AP、36時間でそれぞれ到達した。
論文 参考訳(メタデータ) (2022-11-12T06:36:17Z) - Decoupling Object Detection from Human-Object Interaction Recognition [37.133695677465376]
DEFRは、物体の位置や人間のポーズを使わずに、画像レベルでのヒューマン・オブジェクト・インタラクション(HOI)を認識できる。
本研究では,検出不要な手法の性能向上のための2つの知見を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:01:49Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Robust and Accurate Object Detection via Adversarial Learning [111.36192453882195]
この研究は、逆の例を探索することで、物体検出器の微調整段階を補強する。
提案手法は,オブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。
論文 参考訳(メタデータ) (2021-03-23T19:45:26Z) - Condensing Two-stage Detection with Automatic Object Key Part Discovery [87.1034745775229]
2段階の物体検出器は通常、高い精度を達成するために、検出ヘッドのために過度に大きなモデルを必要とする。
そこで本研究では,2段階検出ヘッドのモデルパラメータを,対象キー部分に集中させることで縮合・縮小できることを示す。
提案手法は、一般的な2段検出ヘッドのモデルパラメータの約50%を放棄しながら、元の性能を一貫して維持する。
論文 参考訳(メタデータ) (2020-06-10T01:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。