Fugu-MT 論文翻訳(概要): Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR

論文の概要: Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR

arxiv url: http://arxiv.org/abs/2303.07335v1
Date: Mon, 13 Mar 2023 17:57:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 13:27:16.000350
Title: Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR
Title（参考訳）: Lite DETR : 効率的なDETR用インターリーブマルチスケールエンコーダ
Authors: Feng Li, Ailing Zeng, Shilong Liu, Hao Zhang, Hongyang Li, Lei Zhang, Lionel M. Ni
Abstract要約: Lite DETRは、シンプルだが効率的なエンドツーエンドのオブジェクト検出フレームワークである。高速なエンコーダブロックを設計し,高レベルな特徴と低レベルな特徴を更新する。そこで我々は,より信頼性の高い注意重みを予測できるキー認識型変形型注意機能を開発した。
参考スコア（独自算出の注目度）: 27.120786736090842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent DEtection TRansformer-based (DETR) models have obtained remarkable performance. Its success cannot be achieved without the re-introduction of multi-scale feature fusion in the encoder. However, the excessively increased tokens in multi-scale features, especially for about 75\% of low-level features, are quite computationally inefficient, which hinders real applications of DETR models. In this paper, we present Lite DETR, a simple yet efficient end-to-end object detection framework that can effectively reduce the GFLOPs of the detection head by 60\% while keeping 99\% of the original performance. Specifically, we design an efficient encoder block to update high-level features (corresponding to small-resolution feature maps) and low-level features (corresponding to large-resolution feature maps) in an interleaved way. In addition, to better fuse cross-scale features, we develop a key-aware deformable attention to predict more reliable attention weights. Comprehensive experiments validate the effectiveness and efficiency of the proposed Lite DETR, and the efficient encoder strategy can generalize well across existing DETR-based models. The code will be available in \url{https://github.com/IDEA-Research/Lite-DETR}.
Abstract（参考訳）: 近年のDetection TRansformer-based (DETR)モデルの性能は顕著である。その成功はエンコーダにおけるマルチスケール機能融合の再導入なしには達成できない。しかし、特に75パーセント程度の低レベルの機能において、マルチスケール機能におけるトークンの過剰増加は、非常に非効率であり、DETRモデルの実際の応用を妨げる。本稿では,Lite DETRを提案する。Lite DETRは,検出ヘッドのGFLOPを,元の性能の99.5%を維持しつつ60.%の効率で削減できる,シンプルで効率的なエンドツーエンドオブジェクト検出フレームワークである。具体的には,高レベル機能(小解像度特徴マップに対応)と低レベル機能(大解像度特徴マップに対応)を相互に更新する効率的なエンコーダブロックを設計した。さらに,より信頼性の高い注意重みを予測できるキー認識型変形型注意機能を開発した。総合的な実験により提案したLite DETRの有効性と効率が検証され、効率的なエンコーダ戦略は既存のDETRベースのモデルでよく一般化できる。コードは \url{https://github.com/IDEA-Research/Lite-DETR} で入手できる。

関連論文リスト

Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation [23.51191930926061]
本稿では,ASRエンコーダの低ランク圧縮方式であるLiteASRを導入する。評価の結果,Whisperの大容量v3エンコーダサイズを50%以上圧縮し,Whisper媒体サイズと転写精度を比較検討した。
論文参考訳（メタデータ） (2025-02-27T22:52:21Z)
Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文参考訳（メタデータ） (2025-02-27T08:20:03Z)
Cross Resolution Encoding-Decoding For Detection Transformers [33.248031676529635]
クロスリゾリューション。デコード(CRED)は、マルチスケールを融合するように設計されている。検出メカニズム CREDは高解像度の DETR と同様の精度を約50%のFLOPで提供する。コミュニティが利用するための事前訓練されたCRED-DETRをリリースする予定です。
論文参考訳（メタデータ） (2024-10-05T09:01:59Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文参考訳（メタデータ） (2024-06-05T17:07:24Z)
Extreme Encoder Output Frame Rate Reduction: Improving Computational Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文参考訳（メタデータ） (2024-02-27T03:40:44Z)
Less is More: Focus Attention for Efficient DETR [23.81282650112188]
本研究では,計算効率とモデル精度のトレードオフを改善するために,より情報性の高いトークンに着目したFocus-DETRを提案する。具体的には、トークンスコアリング機構を含むデュアルアテンションでエンコーダを再構築する。同じ条件下での最先端のスパースDETRのような検出器と比較すると、Focus-DETRはCOCO上で50.4AP(+2.2)を達成しながら、同等の複雑さを得る。
論文参考訳（メタデータ） (2023-07-24T08:39:11Z)
High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。 HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文参考訳（メタデータ） (2023-03-15T14:23:07Z)
A Faster, Lighter and Stronger Deep Learning-Based Approach for Place Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文参考訳（メタデータ） (2022-11-27T15:46:53Z)
ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。 ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-05-14T21:16:21Z)
Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity [10.098578160958946]
我々は,COCOデータセット上に10%エンコーダトークンしか持たなくても,Sparse DETRがDeformable DETRよりも優れた性能を実現することを示す。エンコーダトークンだけがスペーサー化され、総計算コストは38%減少し、フレーム/秒(FPS)はDeformable DETRに比べて42%増加する。
論文参考訳（メタデータ） (2021-11-29T05:22:46Z)
Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-11-13T06:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。