論文の概要: End-to-End Object Detection with Adaptive Clustering Transformer
- arxiv url: http://arxiv.org/abs/2011.09315v2
- Date: Mon, 18 Oct 2021 07:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:29:57.800713
- Title: End-to-End Object Detection with Adaptive Clustering Transformer
- Title(参考訳): 適応クラスタリング変換器を用いた終端物体検出
- Authors: Minghang Zheng, Peng Gao, Renrui Zhang, Kunchang Li, Xiaogang Wang,
Hongsheng Li, Hao Dong
- Abstract要約: 適応クラスタリング変換器(ACT)と呼ばれる新しい変種が提案され,高分解能入力の計算コストを削減した。
ACTクラスタ クエリはLocality Sensitive Hashing (LSH)を使用して適応的に機能し、クエリキーのインタラクションをap-proximateする。
コードは、実験の複製と検証の容易さの補足としてリリースされている。
- 参考スコア(独自算出の注目度): 37.9114488933667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end Object Detection with Transformer (DETR)proposes to perform object
detection with Transformer and achieve comparable performance with two-stage
object detection like Faster-RCNN. However, DETR needs huge computational
resources for training and inference due to the high-resolution spatial input.
In this paper, a novel variant of transformer named Adaptive Clustering
Transformer(ACT) has been proposed to reduce the computation cost for
high-resolution input. ACT cluster the query features adaptively using Locality
Sensitive Hashing (LSH) and ap-proximate the query-key interaction using the
prototype-key interaction. ACT can reduce the quadratic O(N2) complexity inside
self-attention into O(NK) where K is the number of prototypes in each layer.
ACT can be a drop-in module replacing the original self-attention module
without any training. ACT achieves a good balance between accuracy and
computation cost (FLOPs). The code is available as supplementary for the ease
of experiment replication and verification. Code is released at
\url{https://github.com/gaopengcuhk/SMCA-DETR/}
- Abstract(参考訳): Transformer (DETR)によるエンドツーエンドオブジェクト検出は、Transformerでオブジェクト検出を行い、Faster-RCNNのような2段階オブジェクト検出と同等のパフォーマンスを実現する。
しかし、DETRは高解像度空間入力のため、トレーニングや推論に膨大な計算資源を必要とする。
本稿では,適応クラスタリング変換器(ACT)と呼ばれる新しい変圧器を提案し,高分解能入力の計算コストを削減する。
actクラスタ クエリ機能は、lsh(locality sensitive hashing)とap-proximateを使用して適応的に機能します。
act は自己アテンション内の二次 o(n2) の複雑さを o(nk) に還元し、k は各層内のプロトタイプの数である。
ACTは、トレーニングなしでオリジナルのセルフアテンションモジュールを置き換えるドロップインモジュールである。
ACTは精度と計算コスト(FLOP)のバランスが良い。
コードは、実験の複製と検証の容易さの補足として利用できる。
コードは \url{https://github.com/gaopengcuhk/SMCA-DETR/} でリリースされる。
関連論文リスト
- ENACT: Entropy-based Clustering of Attention Input for Improving the Computational Performance of Object Detection Transformers [0.0]
トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。
本稿では,そのエントロピーに基づいて変換器の入力をクラスタリングする。
クラスタリングは、トランスへの入力として与えられるデータのサイズを削減し、トレーニング時間とGPUメモリ使用量を削減する。
論文 参考訳(メタデータ) (2024-09-11T18:03:59Z) - Transformers for Object Detection in Large Point Clouds [9.287964414592826]
トランスLPC(TransLPC)は,変圧器アーキテクチャに基づく大点雲の新しい検出モデルである。
本稿では,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。
この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
論文 参考訳(メタデータ) (2022-09-30T06:35:43Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Oriented Object Detection with Transformer [51.634913687632604]
我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
論文 参考訳(メタデータ) (2021-06-06T14:57:17Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。