論文の概要: Deep Equilibrium Object Detection
- arxiv url: http://arxiv.org/abs/2308.09564v1
- Date: Fri, 18 Aug 2023 13:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:56:27.233018
- Title: Deep Equilibrium Object Detection
- Title(参考訳): 深部平衡物体検出
- Authors: Shuai Wang, Yao Teng, Limin Wang
- Abstract要約: 本稿では,ディープ平衡デコーダを設計し,新しいクエリベースのオブジェクト検出器(DEQDet)を提案する。
我々の実験では、DECDtはより早く収束し、メモリ消費を減らし、ベースラインよりも優れた結果が得られることを示した。
- 参考スコア(独自算出の注目度): 24.69829309391189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query-based object detectors directly decode image features into object
instances with a set of learnable queries. These query vectors are
progressively refined to stable meaningful representations through a sequence
of decoder layers, and then used to directly predict object locations and
categories with simple FFN heads. In this paper, we present a new query-based
object detector (DEQDet) by designing a deep equilibrium decoder. Our DEQ
decoder models the query vector refinement as the fixed point solving of an
{implicit} layer and is equivalent to applying {infinite} steps of refinement.
To be more specific to object decoding, we use a two-step unrolled equilibrium
equation to explicitly capture the query vector refinement. Accordingly, we are
able to incorporate refinement awareness into the DEQ training with the inexact
gradient back-propagation (RAG). In addition, to stabilize the training of our
DEQDet and improve its generalization ability, we devise the deep supervision
scheme on the optimization path of DEQ with refinement-aware
perturbation~(RAP). Our experiments demonstrate DEQDet converges faster,
consumes less memory, and achieves better results than the baseline counterpart
(AdaMixer). In particular, our DEQDet with ResNet50 backbone and 300 queries
achieves the $49.5$ mAP and $33.0$ AP$_s$ on the MS COCO benchmark under
$2\times$ training scheme (24 epochs).
- Abstract(参考訳): クエリベースのオブジェクト検出器は、画像の機能を学習可能なクエリセットでオブジェクトインスタンスに直接デコードする。
これらのクエリベクターは、デコーダ層のシーケンスを通じて、安定な意味表現に徐々に洗練され、単純なFFNヘッドでオブジェクトの位置やカテゴリを直接予測するために使用される。
本稿では,ディープ平衡デコーダを設計し,新しいクエリベースのオブジェクト検出器(DEQDet)を提案する。
我々のDECデコーダは、クエリベクトル精細化を {implicit} 層の固定点解としてモデル化し、 {infinite} の精細化のステップを適用することと等価である。
オブジェクトの復号化をより具体的にするために、2段階のアンロール平衡方程式を用いてクエリーベクトルの精細化を明示的に捉える。
そのため,不明確な勾配逆伝播(RAG)によるDECトレーニングに改善意識を組み込むことが可能である。
さらに,deqdetのトレーニングを安定させ,その一般化能力を向上させるために,改良・認識摂動(rap)を伴うdeqの最適化経路に関する深い監督手法を考案する。
我々の実験は、DECDtがより早く収束し、メモリ消費が減り、ベースライン(AdaMixer)よりも優れた結果が得られることを示した。
特に、ResNet50のバックボーンと300クエリを備えたDECDetは、トレーニングスキーム(24時間)で、MS COCOベンチマークで49.5ドルのmAPと$3.0$ AP$_s$を達成する。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Ranking-based Adaptive Query Generation for DETRs in Crowded Pedestrian
Detection [49.27380156754935]
DETRのクエリの数は手動で調整しなければなりませんが、そうでなければ、パフォーマンスは様々な程度に低下します。
本稿では,ランクに基づく適応クエリ生成(RAQG)を提案し,問題を緩和する。
提案手法は単純かつ効果的であり,任意のDETRにプラグインすることで,理論上クエリ適応性を実現する。
論文 参考訳(メタデータ) (2023-10-24T11:00:56Z) - Rank-DETR for High Quality Object Detection [52.82810762221516]
高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。
本研究では, 簡易かつ高性能なDETR型物体検出器について, 一連のランク指向設計を提案して紹介する。
論文 参考訳(メタデータ) (2023-10-13T04:48:32Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Q-DETR: An Efficient Low-Bit Quantized Detection Transformer [50.00784028552792]
Q-DETRのボトルネックは、我々の経験的分析によるクエリ情報の歪みから生じる。
情報ボトルネック(IB)の原理をQ-DETRの学習に一般化することで導出できる2レベル最適化問題としてDRDを定式化する。
本研究では,教師情報を蒸留所要の機能に効果的に転送し,条件情報エントロピーを最小化する,フォアグラウンド対応クエリマッチング手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:05:14Z) - D2Q-DETR: Decoupling and Dynamic Queries for Oriented Object Detection
with Transformers [14.488821968433834]
オブジェクト指向オブジェクト検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはDETRに基づいており、ボックスレグレッションヘッドはポイント予測ヘッドに置き換えられている。
最大かつ挑戦的なDOTA-v1.0データセットとDOTA-v1.5データセットの実験は、D2Q-DETRが既存のNMSベースおよびNMSのないオブジェクト指向オブジェクト検出方法より優れていることを示している。
論文 参考訳(メタデータ) (2023-03-01T14:36:19Z) - Enhanced Training of Query-Based Object Detection via Selective Query
Recollection [35.3219210570517]
本稿では,問合せ型オブジェクト検出器が最終復号段階で誤予測し,中間段階で正確に予測する現象について検討する。
我々は、クエリに基づくオブジェクト検出のためのシンプルで効果的なトレーニング戦略であるSelective Query Recollectionを設計し、提示する。
論文 参考訳(メタデータ) (2022-12-15T02:45:57Z) - Learning Low-Rank Representations for Model Compression [6.721845345130468]
本稿では,従来のVQアルゴリズムを様々なタスクやアーキテクチャで上回る低ランク表現ベクトル量子化(textLR2textVQ$)手法を提案する。
本手法では,圧縮率を直接$m$で制御することができ,最終的な精度は$tilded$で決定される。
適切な$tilded$で、ImageNet分類データセット上でResNet-18/ResNet-50で$textLR2textVQ$を評価します。
論文 参考訳(メタデータ) (2022-11-21T12:15:28Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。