論文の概要: Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR
- arxiv url: http://arxiv.org/abs/2303.07335v1
- Date: Mon, 13 Mar 2023 17:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 13:27:16.000350
- Title: Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR
- Title(参考訳): Lite DETR : 効率的なDETR用インターリーブマルチスケールエンコーダ
- Authors: Feng Li, Ailing Zeng, Shilong Liu, Hao Zhang, Hongyang Li, Lei Zhang,
Lionel M. Ni
- Abstract要約: Lite DETRは、シンプルだが効率的なエンドツーエンドのオブジェクト検出フレームワークである。
高速なエンコーダブロックを設計し,高レベルな特徴と低レベルな特徴を更新する。
そこで我々は,より信頼性の高い注意重みを予測できるキー認識型変形型注意機能を開発した。
- 参考スコア(独自算出の注目度): 27.120786736090842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent DEtection TRansformer-based (DETR) models have obtained remarkable
performance. Its success cannot be achieved without the re-introduction of
multi-scale feature fusion in the encoder. However, the excessively increased
tokens in multi-scale features, especially for about 75\% of low-level
features, are quite computationally inefficient, which hinders real
applications of DETR models. In this paper, we present Lite DETR, a simple yet
efficient end-to-end object detection framework that can effectively reduce the
GFLOPs of the detection head by 60\% while keeping 99\% of the original
performance. Specifically, we design an efficient encoder block to update
high-level features (corresponding to small-resolution feature maps) and
low-level features (corresponding to large-resolution feature maps) in an
interleaved way. In addition, to better fuse cross-scale features, we develop a
key-aware deformable attention to predict more reliable attention weights.
Comprehensive experiments validate the effectiveness and efficiency of the
proposed Lite DETR, and the efficient encoder strategy can generalize well
across existing DETR-based models. The code will be available in
\url{https://github.com/IDEA-Research/Lite-DETR}.
- Abstract(参考訳): 近年のDetection TRansformer-based (DETR)モデルの性能は顕著である。
その成功はエンコーダにおけるマルチスケール機能融合の再導入なしには達成できない。
しかし、特に75パーセント程度の低レベルの機能において、マルチスケール機能におけるトークンの過剰増加は、非常に非効率であり、DETRモデルの実際の応用を妨げる。
本稿では,Lite DETRを提案する。Lite DETRは,検出ヘッドのGFLOPを,元の性能の99.5%を維持しつつ60.%の効率で削減できる,シンプルで効率的なエンドツーエンドオブジェクト検出フレームワークである。
具体的には,高レベル機能(小解像度特徴マップに対応)と低レベル機能(大解像度特徴マップに対応)を相互に更新する効率的なエンコーダブロックを設計した。
さらに,より信頼性の高い注意重みを予測できるキー認識型変形型注意機能を開発した。
総合的な実験により提案したLite DETRの有効性と効率が検証され、効率的なエンコーダ戦略は既存のDETRベースのモデルでよく一般化できる。
コードは \url{https://github.com/IDEA-Research/Lite-DETR} で入手できる。
関連論文リスト
- Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like
Speed [42.861344584752]
従来は検出不要であったLoFTRは、大きな視点の変化とテクスチャ・ポーアのシナリオを扱う際、顕著な整合性を示した。
設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。
提案手法は,競争力のあるセミセンス・マーカと比較して高い精度を実現することができる。
論文 参考訳(メタデータ) (2024-03-07T18:58:40Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Less is More: Focus Attention for Efficient DETR [23.81282650112188]
本研究では,計算効率とモデル精度のトレードオフを改善するために,より情報性の高いトークンに着目したFocus-DETRを提案する。
具体的には、トークンスコアリング機構を含むデュアルアテンションでエンコーダを再構築する。
同じ条件下での最先端のスパースDETRのような検出器と比較すると、Focus-DETRはCOCO上で50.4AP(+2.2)を達成しながら、同等の複雑さを得る。
論文 参考訳(メタデータ) (2023-07-24T08:39:11Z) - DETRs Beat YOLOs on Real-time Object Detection [2.197746938859857]
非最大抑圧(NMS)による推論遅延を回避するためにRT-DETR(Real-Time Detection TRansformer)を提案する。
具体的には,マルチスケールな特徴を効率よく処理するハイブリッドエンコーダを設計し,イントラスケールインタラクションとクロススケールフュージョンを分離する。
提案する検出器は, 再トレーニングを必要とせず, 異なるデコーダ層を用いることで, 推論速度の柔軟調整を支援する。
論文 参考訳(メタデータ) (2023-04-17T08:30:02Z) - High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文 参考訳(メタデータ) (2023-03-15T14:23:07Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。
本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-11-27T15:46:53Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Sparse DETR: Efficient End-to-End Object Detection with Learnable
Sparsity [10.098578160958946]
我々は,COCOデータセット上に10%エンコーダトークンしか持たなくても,Sparse DETRがDeformable DETRよりも優れた性能を実現することを示す。
エンコーダトークンだけがスペーサー化され、総計算コストは38%減少し、フレーム/秒(FPS)はDeformable DETRに比べて42%増加する。
論文 参考訳(メタデータ) (2021-11-29T05:22:46Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。