論文の概要: Less is More: Focus Attention for Efficient DETR
- arxiv url: http://arxiv.org/abs/2307.12612v1
- Date: Mon, 24 Jul 2023 08:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:01:37.631893
- Title: Less is More: Focus Attention for Efficient DETR
- Title(参考訳): less is more: 効率的なdetrに注目すること
- Authors: Dehua Zheng, Wenhui Dong, Hailin Hu, Xinghao Chen, Yunhe Wang
- Abstract要約: 本研究では,計算効率とモデル精度のトレードオフを改善するために,より情報性の高いトークンに着目したFocus-DETRを提案する。
具体的には、トークンスコアリング機構を含むデュアルアテンションでエンコーダを再構築する。
同じ条件下での最先端のスパースDETRのような検出器と比較すると、Focus-DETRはCOCO上で50.4AP(+2.2)を達成しながら、同等の複雑さを得る。
- 参考スコア(独自算出の注目度): 23.81282650112188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DETR-like models have significantly boosted the performance of detectors and
even outperformed classical convolutional models. However, all tokens are
treated equally without discrimination brings a redundant computational burden
in the traditional encoder structure. The recent sparsification strategies
exploit a subset of informative tokens to reduce attention complexity
maintaining performance through the sparse encoder. But these methods tend to
rely on unreliable model statistics. Moreover, simply reducing the token
population hinders the detection performance to a large extent, limiting the
application of these sparse models. We propose Focus-DETR, which focuses
attention on more informative tokens for a better trade-off between computation
efficiency and model accuracy. Specifically, we reconstruct the encoder with
dual attention, which includes a token scoring mechanism that considers both
localization and category semantic information of the objects from multi-scale
feature maps. We efficiently abandon the background queries and enhance the
semantic interaction of the fine-grained object queries based on the scores.
Compared with the state-of-the-art sparse DETR-like detectors under the same
setting, our Focus-DETR gets comparable complexity while achieving 50.4AP
(+2.2) on COCO. The code is available at
https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR and
https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
- Abstract(参考訳): DETRのようなモデルは検出器の性能を大幅に向上させ、古典的な畳み込みモデルよりも優れていた。
しかし、すべてのトークンは差別なく等しく扱われ、従来のエンコーダ構造に冗長な計算負荷をもたらす。
最近のスペーシフィケーション戦略は、スパースエンコーダによるパフォーマンスを維持するために、情報トークンのサブセットを活用する。
しかし、これらの方法は信頼できないモデル統計に依存する傾向がある。
さらに、トークン人口を減らすだけで検出性能が大幅に低下し、これらのスパースモデルの適用が制限される。
計算効率とモデル精度のトレードオフを改善するために,より情報性の高いトークンに着目したFocus-DETRを提案する。
具体的には,マルチスケール特徴地図からオブジェクトの局所化とカテゴリ意味情報の両方を考慮するトークンスコアリング機構を含む,二重注意でエンコーダを再構成する。
背景クエリを効率的に放棄し、スコアに基づいてきめ細かいオブジェクトクエリの意味的インタラクションを強化します。
同じ条件下での最先端のスパースDETRのような検出器と比較すると、Focus-DETRはCOCO上で50.4AP(+2.2)を達成しながら、同等の複雑さを得る。
コードはhttps://github.com/huawei-noah/noah-research/tree/Focus-DETRとhttps://gitee.com/mindspore/models/tree/research/cv/Focus-DETRで公開されている。
関連論文リスト
- SpirDet: Towards Efficient, Accurate and Lightweight Infrared Small
Target Detector [60.42293239557962]
我々は、赤外線小ターゲットの効率的な検出のための新しいアプローチであるSpirDetを提案する。
新しいデュアルブランチスパースデコーダを用いて特徴写像を復元する。
大規模な実験により、提案されたSpirDetは最先端モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-02-08T05:06:14Z) - Accelerating the Global Aggregation of Local Explanations [43.787092409977724]
我々は,Anchorアルゴリズムのグローバルアグリゲーションを高速化する手法を考案した。
非常に軽度な品質の損失に対して、計算を最大30$times$で高速化し、計算時間を数時間から数分に短縮できることを示す。
論文 参考訳(メタデータ) (2023-12-13T09:03:01Z) - Unsupervised Keypoints from Pretrained Diffusion Models [31.147785019795347]
我々は、テキストから画像への拡散モデルにおける創発的な知識を、より堅牢な教師なしキーポイントに活用する。
私たちの中核となる考え方は、生成モデルが画像のコンパクトな領域に一貫して従う原因となるテキスト埋め込みを見つけることです。
CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion、Human3.6mのデータセットでパフォーマンスを検証する。
論文 参考訳(メタデータ) (2023-11-29T19:43:38Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - Pair DETR: Contrastive Learning Speeds Up DETR Training [0.6491645162078056]
本稿では、DreTRの主な問題である緩やかな収束に対処するための簡単なアプローチを提案する。
2つのデコーダを用いて、一対のキーポイント、左上隅、中央としてオブジェクト境界ボックスを検出する。
実験により、Pair DETRは元のDETRより少なくとも10倍早く収束し、トレーニング中にConditional DETRより1.5倍速く収束できることが示された。
論文 参考訳(メタデータ) (2022-10-29T03:02:49Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Sparse DETR: Efficient End-to-End Object Detection with Learnable
Sparsity [10.098578160958946]
我々は,COCOデータセット上に10%エンコーダトークンしか持たなくても,Sparse DETRがDeformable DETRよりも優れた性能を実現することを示す。
エンコーダトークンだけがスペーサー化され、総計算コストは38%減少し、フレーム/秒(FPS)はDeformable DETRに比べて42%増加する。
論文 参考訳(メタデータ) (2021-11-29T05:22:46Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。