論文の概要: ENACT: Entropy-based Clustering of Attention Input for Improving the Computational Performance of Object Detection Transformers
- arxiv url: http://arxiv.org/abs/2409.07541v1
- Date: Wed, 11 Sep 2024 18:03:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 20:40:16.904379
- Title: ENACT: Entropy-based Clustering of Attention Input for Improving the Computational Performance of Object Detection Transformers
- Title(参考訳): ENACT: Entropy-based Clustering of Attention Input for improveing the Computational Performance of Object Detection Transformers
- Authors: Giorgos Savathrakis, Antonis Argyros,
- Abstract要約: トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。
本稿では,そのエントロピーに基づいて変換器の入力をクラスタリングする。
クラスタリングは、トランスへの入力として与えられるデータのサイズを削減し、トレーニング時間とGPUメモリ使用量を削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transformers demonstrate competitive performance in terms of precision on the problem of vision-based object detection. However, they require considerable computational resources due to the quadratic size of the attention weights. In this work, we propose to cluster the transformer input on the basis of its entropy. The reason for this is that the self-information of each pixel (whose sum is the entropy), is likely to be similar among pixels corresponding to the same objects. Clustering reduces the size of data given as input to the transformer and therefore reduces training time and GPU memory usage, while at the same time preserves meaningful information to be passed through the remaining parts of the network. The proposed process is organized in a module called ENACT, that can be plugged-in any transformer architecture that consists of a multi-head self-attention computation in its encoder. We ran extensive experiments using the COCO object detection dataset, and three detection transformers. The obtained results demonstrate that in all tested cases, there is consistent reduction in the required computational resources, while the precision of the detection task is only slightly reduced. The code of the ENACT module will become available at https://github.com/GSavathrakis/ENACT
- Abstract(参考訳): トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。
しかし、注意重みの二次的な大きさのため、かなりの計算資源を必要とする。
本研究では,そのエントロピーに基づいて変換器の入力をクラスタリングすることを提案する。
この理由は、各ピクセル(合計がエントロピーである)の自己情報が、同じ対象に対応するピクセル間で類似している可能性が高いからである。
クラスタリングはトランスへの入力として与えられるデータのサイズを削減し、トレーニング時間とGPUメモリ使用量を削減すると同時に、ネットワークの残りの部分を通過する意味のある情報を保存する。
提案プロセスはENACTと呼ばれるモジュールで構成され,エンコーダ内のマルチヘッド自己アテンション計算からなるトランスフォーマーアーキテクチャをプラグインすることができる。
我々はCOCOオブジェクト検出データセットと3つの検出変換器を用いて広範囲に実験を行った。
その結果,全てのテストケースにおいて,必要な計算資源が一貫した減少がみられ,検出タスクの精度はわずかに低下していることがわかった。
ENACTモジュールのコードはhttps://github.com/GSavathrakis/ENACTで利用可能になる。
関連論文リスト
- Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - End-to-End Object Detection with Adaptive Clustering Transformer [37.9114488933667]
適応クラスタリング変換器(ACT)と呼ばれる新しい変種が提案され,高分解能入力の計算コストを削減した。
ACTクラスタ クエリはLocality Sensitive Hashing (LSH)を使用して適応的に機能し、クエリキーのインタラクションをap-proximateする。
コードは、実験の複製と検証の容易さの補足としてリリースされている。
論文 参考訳(メタデータ) (2020-11-18T14:36:37Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Algorithm-hardware Co-design for Deformable Convolution [40.50544352625659]
我々は、変形可能な畳み込みを改良した効率的な物体検出ネットワークを構築し、最先端の量子化手法を用いてネットワークを定量化する。
予備実験では、変形可能な畳み込みに対する設計最適化により、ほとんど精度が損なわれず、高速化が達成できることが示されている。
論文 参考訳(メタデータ) (2020-02-19T01:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。