論文の概要: Sparse DETR: Efficient End-to-End Object Detection with Learnable
Sparsity
- arxiv url: http://arxiv.org/abs/2111.14330v1
- Date: Mon, 29 Nov 2021 05:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 15:40:03.177820
- Title: Sparse DETR: Efficient End-to-End Object Detection with Learnable
Sparsity
- Title(参考訳): sparse detr: 学習可能なスパースを持つ効率的なエンドツーエンドオブジェクト検出
- Authors: Byungseok Roh, JaeWoong Shin, Wuhyun Shin, Saehoon Kim
- Abstract要約: 我々は,COCOデータセット上に10%エンコーダトークンしか持たなくても,Sparse DETRがDeformable DETRよりも優れた性能を実現することを示す。
エンコーダトークンだけがスペーサー化され、総計算コストは38%減少し、フレーム/秒(FPS)はDeformable DETRに比べて42%増加する。
- 参考スコア(独自算出の注目度): 10.098578160958946
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: DETR is the first end-to-end object detector using a transformer
encoder-decoder architecture and demonstrates competitive performance but low
computational efficiency on high resolution feature maps. The subsequent work,
Deformable DETR, enhances the efficiency of DETR by replacing dense attention
with deformable attention, which achieves 10x faster convergence and improved
performance. Deformable DETR uses the multiscale feature to ameliorate
performance, however, the number of encoder tokens increases by 20x compared to
DETR, and the computation cost of the encoder attention remains a bottleneck.
In our preliminary experiment, we observe that the detection performance hardly
deteriorates even if only a part of the encoder token is updated. Inspired by
this observation, we propose Sparse DETR that selectively updates only the
tokens expected to be referenced by the decoder, thus help the model
effectively detect objects. In addition, we show that applying an auxiliary
detection loss on the selected tokens in the encoder improves the performance
while minimizing computational overhead. We validate that Sparse DETR achieves
better performance than Deformable DETR even with only 10% encoder tokens on
the COCO dataset. Albeit only the encoder tokens are sparsified, the total
computation cost decreases by 38% and the frames per second (FPS) increases by
42% compared to Deformable DETR.
Code is available at https://github.com/kakaobrain/sparse-detr
- Abstract(参考訳): DETRは変換器エンコーダ・デコーダアーキテクチャを用いた最初のエンドツーエンドのオブジェクト検出器であり、高解像度の特徴マップ上では競争性能は高いが計算効率は低い。
その後のDeformable DETRは、高密度な注意を変形可能な注意に置き換えることで、DeTRの効率を向上し、10倍の高速化と性能向上を実現した。
変形可能なDETRは、マルチスケール機能を用いて性能を向上するが、エンコーダトークンの数はDECに比べて20倍増加し、エンコーダアテンションの計算コストはボトルネックのままである。
予備実験では,エンコーダトークンの一部のみを更新しても検出性能が低下することがほとんどないことを確認した。
この観察に触発されて、デコーダで参照されると思われるトークンのみを選択的に更新するスパースdetrを提案し、モデルがオブジェクトを効果的に検出するのに役立つ。
さらに,エンコーダ内の選択したトークンに補助的な検出損失を適用することにより,計算オーバーヘッドを最小限に抑えながら性能を向上させることを示す。
我々は、COCOデータセット上に10%エンコーダトークンしか持たなくても、Sparse DETRがDeformable DETRよりも優れたパフォーマンスを実現することを検証する。
エンコーダトークンのみがスパース化されているが、計算コストは38%減少し、フレーム毎秒(fps)は変形可能なdetrと比較して42%増加した。
コードはhttps://github.com/kakaobrain/sparse-detrで入手できる。
関連論文リスト
- LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文 参考訳(メタデータ) (2024-06-05T17:07:24Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Less is More: Focus Attention for Efficient DETR [23.81282650112188]
本研究では,計算効率とモデル精度のトレードオフを改善するために,より情報性の高いトークンに着目したFocus-DETRを提案する。
具体的には、トークンスコアリング機構を含むデュアルアテンションでエンコーダを再構築する。
同じ条件下での最先端のスパースDETRのような検出器と比較すると、Focus-DETRはCOCO上で50.4AP(+2.2)を達成しながら、同等の複雑さを得る。
論文 参考訳(メタデータ) (2023-07-24T08:39:11Z) - Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR [27.120786736090842]
Lite DETRは、シンプルだが効率的なエンドツーエンドのオブジェクト検出フレームワークである。
高速なエンコーダブロックを設計し,高レベルな特徴と低レベルな特徴を更新する。
そこで我々は,より信頼性の高い注意重みを予測できるキー認識型変形型注意機能を開発した。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Pair DETR: Contrastive Learning Speeds Up DETR Training [0.6491645162078056]
本稿では、DreTRの主な問題である緩やかな収束に対処するための簡単なアプローチを提案する。
2つのデコーダを用いて、一対のキーポイント、左上隅、中央としてオブジェクト境界ボックスを検出する。
実験により、Pair DETRは元のDETRより少なくとも10倍早く収束し、トレーニング中にConditional DETRより1.5倍速く収束できることが示された。
論文 参考訳(メタデータ) (2022-10-29T03:02:49Z) - Conditional DETR V2: Efficient Detection Transformer with Box Queries [58.9706842210695]
我々は,NMSなどの手作り後処理を必要としないトランスフォーマーエンコーダデコーダアーキテクチャに基づくエンドツーエンドのオブジェクト検出手法に興味がある。
高速なトレーニング収束を備えた改良されたDETRであるConditional DETRにインスパイアされ、オブジェクトクエリを参照ポイントの埋め込みの合成であるボックスクエリの形式に再構成する。
画像の内容からボックスクエリを学習し、高速なトレーニング収束で条件付きDETRの検出品質をさらに向上する。
論文 参考訳(メタデータ) (2022-07-18T20:08:55Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - D^2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale
Attention [27.354159713970322]
我々はD2ETRと呼ばれるデコーダのみの検出器を提案する。
エンコーダがない場合、デコーダはTransformerのバックボーンによって生成された細分化された特徴マップに直接出席する。
D2ETRはCOCOベンチマークの評価において計算複雑性が低く、高い検出精度を示す。
論文 参考訳(メタデータ) (2022-03-02T04:21:12Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。