論文の概要: ENACT: Entropy-based Clustering of Attention Input for Reducing the Computational Needs of Object Detection Transformers
- arxiv url: http://arxiv.org/abs/2409.07541v2
- Date: Fri, 30 May 2025 11:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.451782
- Title: ENACT: Entropy-based Clustering of Attention Input for Reducing the Computational Needs of Object Detection Transformers
- Title(参考訳): ENACT: Entropy-based Clustering of Attention Input for reduce the Computational Needs of Object Detection Transformers (特集:情報ネットワーク)
- Authors: Giorgos Savathrakis, Antonis Argyros,
- Abstract要約: トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。
我々は,同じ物体画素間の類似性から,そのエントロピーに基づいて変換器入力をクラスタリングすることを提案する。
これにより、適切な精度を維持しながら、トレーニング中のGPU使用量を減らすことが期待されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers demonstrate competitive performance in terms of precision on the problem of vision-based object detection. However, they require considerable computational resources due to the quadratic size of the attention weights. In this work, we propose to cluster the transformer input on the basis of its entropy, due to its similarity between same object pixels. This is expected to reduce GPU usage during training, while maintaining reasonable accuracy. This idea is realized with an implemented module that is called ENtropy-based Attention Clustering for detection Transformers (ENACT), which serves as a plug-in to any multi-head self-attention based transformer network. Experiments on the COCO object detection dataset and three detection transformers demonstrate that the requirements on memory are reduced, while the detection accuracy is degraded only slightly. The code of the ENACT module is available at https://github.com/GSavathrakis/ENACT.
- Abstract(参考訳): トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。
しかし、注意重みの二次的な大きさのため、かなりの計算資源を必要とする。
本研究では,同じ物体画素間の類似性から,そのエントロピーに基づいて変換器入力をクラスタリングすることを提案する。
これにより、適切な精度を維持しながら、トレーニング中のGPU使用量を減らすことが期待されている。
このアイデアはENACT(Entropy-based Attention Clustering for Detection Transformers)と呼ばれる実装モジュールで実現されている。
COCOオブジェクト検出データセットと3つの検出変換器の実験により、メモリ上の要求が減少し、検出精度がわずかに低下することを示した。
ENACTモジュールのコードはhttps://github.com/GSavathrakis/ENACTで公開されている。
関連論文リスト
- Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - End-to-End Object Detection with Adaptive Clustering Transformer [37.9114488933667]
適応クラスタリング変換器(ACT)と呼ばれる新しい変種が提案され,高分解能入力の計算コストを削減した。
ACTクラスタ クエリはLocality Sensitive Hashing (LSH)を使用して適応的に機能し、クエリキーのインタラクションをap-proximateする。
コードは、実験の複製と検証の容易さの補足としてリリースされている。
論文 参考訳(メタデータ) (2020-11-18T14:36:37Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Algorithm-hardware Co-design for Deformable Convolution [40.50544352625659]
我々は、変形可能な畳み込みを改良した効率的な物体検出ネットワークを構築し、最先端の量子化手法を用いてネットワークを定量化する。
予備実験では、変形可能な畳み込みに対する設計最適化により、ほとんど精度が損なわれず、高速化が達成できることが示されている。
論文 参考訳(メタデータ) (2020-02-19T01:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。