論文の概要: Towards Light Weight Object Detection System
- arxiv url: http://arxiv.org/abs/2210.03861v1
- Date: Sat, 8 Oct 2022 00:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:11:28.002924
- Title: Towards Light Weight Object Detection System
- Title(参考訳): 軽量物体検出システムに向けて
- Authors: Dharma KC, Venkata Ravi Kiran Dayana, Meng-Lin Wu, Venkateswara Rao
Cherukuri, Hau Hwang
- Abstract要約: 本稿ではトランスアーキテクチャで使用される自己注意層の近似について述べる。
また,マルチレゾリューション機能融合にトランスフォーマーエンコーダ層を用いる手法を提案する。
- 参考スコア(独自算出の注目度): 6.535035773534901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are a popular choice for classification tasks and as backbones
for object detection tasks. However, their high latency brings challenges in
their adaptation to lightweight object detection systems. We present an
approximation of the self-attention layers used in the transformer
architecture. This approximation reduces the latency of the classification
system while incurring minimal loss in accuracy. We also present a method that
uses a transformer encoder layer for multi-resolution feature fusion. This
feature fusion improves the accuracy of the state-of-the-art lightweight object
detection system without significantly increasing the number of parameters.
Finally, we provide an abstraction for the transformer architecture called
Generalized Transformer (gFormer) that can guide the design of novel
transformer-like architectures.
- Abstract(参考訳): トランスフォーマーは分類タスクやオブジェクト検出タスクのバックボーンとして一般的な選択肢である。
しかし、その高いレイテンシは軽量なオブジェクト検出システムへの適応に課題をもたらす。
本稿では,変圧器アーキテクチャで使用されるセルフアテンション層の近似について述べる。
この近似により、分類システムの遅延を低減し、精度の低下を最小限に抑える。
また,マルチレゾリューション特徴融合のためのトランスコーダ層を用いた手法を提案する。
この特徴融合により、パラメータ数を著しく増加させることなく、最先端の軽量物体検出システムの精度が向上する。
最後に、新しいトランスフォーマーのようなアーキテクチャの設計を導くために、一般化トランスフォーマー(gformer)と呼ばれるトランスフォーマーアーキテクチャの抽象化を提供する。
関連論文リスト
- SimPLR: A Simple and Plain Transformer for Scaling-Efficient Object Detection and Segmentation [49.65221743520028]
本研究は, 背骨と頭部が非階層的であり, 単一スケールの機能で動作するSimPLRを, スケール認識型トランスフォーマーベース検出器により検出できることを示す。
マルチスケールおよびシングルスケールの最先端と比較して、我々のモデルはより大きなキャパシティ(自己監督型)モデルとより事前学習データにより、はるかに良くスケールする。
論文 参考訳(メタデータ) (2023-10-09T17:59:26Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Transformers for Object Detection in Large Point Clouds [9.287964414592826]
トランスLPC(TransLPC)は,変圧器アーキテクチャに基づく大点雲の新しい検出モデルである。
本稿では,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。
この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
論文 参考訳(メタデータ) (2022-09-30T06:35:43Z) - Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文 参考訳(メタデータ) (2022-08-24T08:09:25Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。