論文の概要: D^2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale
Attention
- arxiv url: http://arxiv.org/abs/2203.00860v1
- Date: Wed, 2 Mar 2022 04:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:44:10.421059
- Title: D^2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale
Attention
- Title(参考訳): d^2etr:計算効率の高いクロススケール注意を伴うデコーダのみのdetr
- Authors: Junyu Lin, Xiaofeng Mao, Yuefeng Chen, Lei Xu, Yuan He, Hui Xue
- Abstract要約: 我々はD2ETRと呼ばれるデコーダのみの検出器を提案する。
エンコーダがない場合、デコーダはTransformerのバックボーンによって生成された細分化された特徴マップに直接出席する。
D2ETRはCOCOベンチマークの評価において計算複雑性が低く、高い検出精度を示す。
- 参考スコア(独自算出の注目度): 27.354159713970322
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: DETR is the first fully end-to-end detector that predicts a final set of
predictions without post-processing. However, it suffers from problems such as
low performance and slow convergence. A series of works aim to tackle these
issues in different ways, but the computational cost is yet expensive due to
the sophisticated encoder-decoder architecture. To alleviate this issue, we
propose a decoder-only detector called D^2ETR. In the absence of encoder, the
decoder directly attends to the fine-fused feature maps generated by the
Transformer backbone with a novel computationally efficient cross-scale
attention module. D^2ETR demonstrates low computational complexity and high
detection accuracy in evaluations on the COCO benchmark, outperforming DETR and
its variants.
- Abstract(参考訳): detrは、最終セットの予測を後処理なしで予測する最初のエンドツーエンド検出器である。
しかし、パフォーマンスの低下や収束の遅さといった問題に苦しむ。
様々な方法でこれらの問題に取り組むことを目的としているが、高度なエンコーダ・デコーダアーキテクチャのために計算コストは高い。
この問題を軽減するため,D^2ETRと呼ばれるデコーダのみの検出器を提案する。
エンコーダがない場合、デコーダはトランスフォーマーバックボーンが生成する細分化した特徴写像に直接、新しい計算効率の良いクロススケールアテンションモジュールを付加する。
D^2ETRはCOCOベンチマークの評価において計算複雑性が低く、高い検出精度を示す。
関連論文リスト
- Cross Resolution Encoding-Decoding For Detection Transformers [33.248031676529635]
クロスリゾリューション。
デコード(CRED)は、マルチスケールを融合するように設計されている。
検出メカニズム
CREDは高解像度の DETR と同様の精度を約50%のFLOPで提供する。
コミュニティが利用するための事前訓練されたCRED-DETRをリリースする予定です。
論文 参考訳(メタデータ) (2024-10-05T09:01:59Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Sparse DETR: Efficient End-to-End Object Detection with Learnable
Sparsity [10.098578160958946]
我々は,COCOデータセット上に10%エンコーダトークンしか持たなくても,Sparse DETRがDeformable DETRよりも優れた性能を実現することを示す。
エンコーダトークンだけがスペーサー化され、総計算コストは38%減少し、フレーム/秒(FPS)はDeformable DETRに比べて42%増加する。
論文 参考訳(メタデータ) (2021-11-29T05:22:46Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。