Fugu-MT 論文翻訳(概要): ENACT: Entropy-based Clustering of Attention Input for Reducing the Computational Needs of Object Detection Transformers

論文の概要: ENACT: Entropy-based Clustering of Attention Input for Reducing the Computational Needs of Object Detection Transformers

arxiv url: http://arxiv.org/abs/2409.07541v2
Date: Fri, 30 May 2025 11:38:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.451782
Title: ENACT: Entropy-based Clustering of Attention Input for Reducing the Computational Needs of Object Detection Transformers
Title（参考訳）: ENACT: Entropy-based Clustering of Attention Input for reduce the Computational Needs of Object Detection Transformers (特集:情報ネットワーク)
Authors: Giorgos Savathrakis, Antonis Argyros,
Abstract要約: トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。我々は,同じ物体画素間の類似性から,そのエントロピーに基づいて変換器入力をクラスタリングすることを提案する。これにより、適切な精度を維持しながら、トレーニング中のGPU使用量を減らすことが期待されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers demonstrate competitive performance in terms of precision on the problem of vision-based object detection. However, they require considerable computational resources due to the quadratic size of the attention weights. In this work, we propose to cluster the transformer input on the basis of its entropy, due to its similarity between same object pixels. This is expected to reduce GPU usage during training, while maintaining reasonable accuracy. This idea is realized with an implemented module that is called ENtropy-based Attention Clustering for detection Transformers (ENACT), which serves as a plug-in to any multi-head self-attention based transformer network. Experiments on the COCO object detection dataset and three detection transformers demonstrate that the requirements on memory are reduced, while the detection accuracy is degraded only slightly. The code of the ENACT module is available at https://github.com/GSavathrakis/ENACT.
Abstract（参考訳）: トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。しかし、注意重みの二次的な大きさのため、かなりの計算資源を必要とする。本研究では,同じ物体画素間の類似性から,そのエントロピーに基づいて変換器入力をクラスタリングすることを提案する。これにより、適切な精度を維持しながら、トレーニング中のGPU使用量を減らすことが期待されている。このアイデアはENACT(Entropy-based Attention Clustering for Detection Transformers)と呼ばれる実装モジュールで実現されている。 COCOオブジェクト検出データセットと3つの検出変換器の実験により、メモリ上の要求が減少し、検出精度がわずかに低下することを示した。 ENACTモジュールのコードはhttps://github.com/GSavathrakis/ENACTで公開されている。

関連論文リスト

Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文参考訳（メタデータ） (2023-05-24T03:47:22Z)
Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文参考訳（メタデータ） (2023-03-26T20:50:58Z)
Transformers for Object Detection in Large Point Clouds [9.287964414592826]
トランスLPC(TransLPC)は,変圧器アーキテクチャに基づく大点雲の新しい検出モデルである。本稿では,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
論文参考訳（メタデータ） (2022-09-30T06:35:43Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文参考訳（メタデータ） (2022-07-31T21:39:15Z)
Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。 DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文参考訳（メタデータ） (2022-06-14T13:22:19Z)
An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。 ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文参考訳（メタデータ） (2022-04-17T09:27:45Z)
ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文参考訳（メタデータ） (2021-10-08T06:32:05Z)
PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文参考訳（メタデータ） (2021-09-15T01:10:30Z)
End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文参考訳（メタデータ） (2021-03-22T18:19:22Z)
Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。 vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。 ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文参考訳（メタデータ） (2020-12-17T22:33:14Z)
End-to-End Object Detection with Adaptive Clustering Transformer [37.9114488933667]
適応クラスタリング変換器(ACT)と呼ばれる新しい変種が提案され,高分解能入力の計算コストを削減した。 ACTクラスタクエリはLocality Sensitive Hashing (LSH)を使用して適応的に機能し、クエリキーのインタラクションをap-proximateする。コードは、実験の複製と検証の容易さの補足としてリリースされている。
論文参考訳（メタデータ） (2020-11-18T14:36:37Z)
End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文参考訳（メタデータ） (2020-05-26T17:06:38Z)
Algorithm-hardware Co-design for Deformable Convolution [40.50544352625659]
我々は、変形可能な畳み込みを改良した効率的な物体検出ネットワークを構築し、最先端の量子化手法を用いてネットワークを定量化する。予備実験では、変形可能な畳み込みに対する設計最適化により、ほとんど精度が損なわれず、高速化が達成できることが示されている。
論文参考訳（メタデータ） (2020-02-19T01:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。