論文の概要: Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR
- arxiv url: http://arxiv.org/abs/2303.07335v1
- Date: Mon, 13 Mar 2023 17:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 13:27:16.000350
- Title: Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR
- Title(参考訳): Lite DETR : 効率的なDETR用インターリーブマルチスケールエンコーダ
- Authors: Feng Li, Ailing Zeng, Shilong Liu, Hao Zhang, Hongyang Li, Lei Zhang,
Lionel M. Ni
- Abstract要約: Lite DETRは、シンプルだが効率的なエンドツーエンドのオブジェクト検出フレームワークである。
高速なエンコーダブロックを設計し,高レベルな特徴と低レベルな特徴を更新する。
そこで我々は,より信頼性の高い注意重みを予測できるキー認識型変形型注意機能を開発した。
- 参考スコア(独自算出の注目度): 27.120786736090842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent DEtection TRansformer-based (DETR) models have obtained remarkable
performance. Its success cannot be achieved without the re-introduction of
multi-scale feature fusion in the encoder. However, the excessively increased
tokens in multi-scale features, especially for about 75\% of low-level
features, are quite computationally inefficient, which hinders real
applications of DETR models. In this paper, we present Lite DETR, a simple yet
efficient end-to-end object detection framework that can effectively reduce the
GFLOPs of the detection head by 60\% while keeping 99\% of the original
performance. Specifically, we design an efficient encoder block to update
high-level features (corresponding to small-resolution feature maps) and
low-level features (corresponding to large-resolution feature maps) in an
interleaved way. In addition, to better fuse cross-scale features, we develop a
key-aware deformable attention to predict more reliable attention weights.
Comprehensive experiments validate the effectiveness and efficiency of the
proposed Lite DETR, and the efficient encoder strategy can generalize well
across existing DETR-based models. The code will be available in
\url{https://github.com/IDEA-Research/Lite-DETR}.
- Abstract(参考訳): 近年のDetection TRansformer-based (DETR)モデルの性能は顕著である。
その成功はエンコーダにおけるマルチスケール機能融合の再導入なしには達成できない。
しかし、特に75パーセント程度の低レベルの機能において、マルチスケール機能におけるトークンの過剰増加は、非常に非効率であり、DETRモデルの実際の応用を妨げる。
本稿では,Lite DETRを提案する。Lite DETRは,検出ヘッドのGFLOPを,元の性能の99.5%を維持しつつ60.%の効率で削減できる,シンプルで効率的なエンドツーエンドオブジェクト検出フレームワークである。
具体的には,高レベル機能(小解像度特徴マップに対応)と低レベル機能(大解像度特徴マップに対応)を相互に更新する効率的なエンコーダブロックを設計した。
さらに,より信頼性の高い注意重みを予測できるキー認識型変形型注意機能を開発した。
総合的な実験により提案したLite DETRの有効性と効率が検証され、効率的なエンコーダ戦略は既存のDETRベースのモデルでよく一般化できる。
コードは \url{https://github.com/IDEA-Research/Lite-DETR} で入手できる。
関連論文リスト
- Cross Resolution Encoding-Decoding For Detection Transformers [33.248031676529635]
クロスリゾリューション。
デコード(CRED)は、マルチスケールを融合するように設計されている。
検出メカニズム
CREDは高解像度の DETR と同様の精度を約50%のFLOPで提供する。
コミュニティが利用するための事前訓練されたCRED-DETRをリリースする予定です。
論文 参考訳(メタデータ) (2024-10-05T09:01:59Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文 参考訳(メタデータ) (2024-06-05T17:07:24Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Less is More: Focus Attention for Efficient DETR [23.81282650112188]
本研究では,計算効率とモデル精度のトレードオフを改善するために,より情報性の高いトークンに着目したFocus-DETRを提案する。
具体的には、トークンスコアリング機構を含むデュアルアテンションでエンコーダを再構築する。
同じ条件下での最先端のスパースDETRのような検出器と比較すると、Focus-DETRはCOCO上で50.4AP(+2.2)を達成しながら、同等の複雑さを得る。
論文 参考訳(メタデータ) (2023-07-24T08:39:11Z) - High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文 参考訳(メタデータ) (2023-03-15T14:23:07Z) - A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。
本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-11-27T15:46:53Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Sparse DETR: Efficient End-to-End Object Detection with Learnable
Sparsity [10.098578160958946]
我々は,COCOデータセット上に10%エンコーダトークンしか持たなくても,Sparse DETRがDeformable DETRよりも優れた性能を実現することを示す。
エンコーダトークンだけがスペーサー化され、総計算コストは38%減少し、フレーム/秒(FPS)はDeformable DETRに比べて42%増加する。
論文 参考訳(メタデータ) (2021-11-29T05:22:46Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。