Fugu-MT 論文翻訳(概要): YOLOSA: Object detection based on 2D local feature superimposed self-attention

論文の概要: YOLOSA: Object detection based on 2D local feature superimposed self-attention

arxiv url: http://arxiv.org/abs/2206.11825v1
Date: Thu, 23 Jun 2022 16:49:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-24 12:40:25.038773
Title: YOLOSA: Object detection based on 2D local feature superimposed self-attention
Title（参考訳）: YOLOSA:2次元局所特徴重畳自己注意に基づく物体検出
Authors: Weisheng Li and Lin Huang
Abstract要約: 本稿では,2次元局所特徴重畳自己アテンションと呼ばれる新たな自己アテンションモジュールを提案する。提案した改良手法を用いて構築した大型・中小モデルでは, 平均49.0% (66.2 FPS), 46.1% (80.6 FPS), 39.1% (100 FPS) の精度が得られた。
参考スコア（独自算出の注目度）: 13.307581544820248
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We analyzed the network structure of real-time object detection models and found that the features in the feature concatenation stage are very rich. Applying an attention module here can effectively improve the detection accuracy of the model. However, the commonly used attention module or self-attention module shows poor performance in detection accuracy and inference efficiency. Therefore, we propose a novel self-attention module, called 2D local feature superimposed self-attention, for the feature concatenation stage of the neck network. This self-attention module reflects global features through local features and local receptive fields. We also propose and optimize an efficient decoupled head and AB-OTA, and achieve SOTA results. Average precisions of 49.0\% (66.2 FPS), 46.1\% (80.6 FPS), and 39.1\% (100 FPS) were obtained for large, medium, and small-scale models built using our proposed improvements. Our models exceeded YOLOv5 by 0.8\% -- 3.1\% in average precision.
Abstract（参考訳）: 実時間物体検出モデルのネットワーク構造を解析した結果,特徴連結段階の特徴が豊富であることが判明した。ここで注意モジュールを適用することで、モデルの検出精度が効果的に向上する。しかし、一般的に使用されるアテンションモジュールや自己アテンションモジュールは、検出精度と推論効率が低い。そこで本研究では,ネックネットワークの特徴結合段階に2次元局所特徴重畳自己結合と呼ばれる新しい自己結合モジュールを提案する。この自己認識モジュールは、局所的な特徴と局所的な受容場を通してグローバルな特徴を反映する。また、効率の良い疎結合ヘッドとAB-OTAを提案し、SOTA結果を得る。提案手法を用いた大規模・中小型モデルにおいて, 平均精度は49.0\% (66.2 fps), 46.1\% (80.6 fps), 39.1\% (100 fps) であった。我々のモデルは平均精度で YOLOv5 を0.8 % -- 3.1 % 上回った。

関連論文リスト

A lightweight model FDM-YOLO for small target improvement based on YOLOv8 [0.0]
小さいターゲットは、低いピクセル数、複雑な背景、様々な射撃角度のために検出が困難である。本稿では,小目標検出に焦点をあて,低計算制約下での物体検出手法について検討する。
論文参考訳（メタデータ） (2025-03-06T14:06:35Z)
PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection [65.84604846389624]
我々は,より強力な単一点制御OODフレームワークであるPointOBB-v3を提案する。追加のプリミティブなしで擬似回転ボックスを生成し、エンドツーエンドのパラダイムをサポートする。本手法は従来の最先端手法と比較して3.56%の精度向上を実現している。
論文参考訳（メタデータ） (2025-01-23T18:18:15Z)
Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文参考訳（メタデータ） (2024-12-17T05:45:48Z)
Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。 EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。 ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文参考訳（メタデータ） (2024-11-05T02:33:25Z)
Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models [64.67721492968941]
ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
論文参考訳（メタデータ） (2024-10-29T07:15:09Z)
Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文参考訳（メタデータ） (2024-10-09T17:24:28Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
YOLO-TLA: An Efficient and Lightweight Small Object Detection Model based on YOLOv5 [19.388112026410045]
YOLO-TLAは、YOLOv5上に構築された高度な物体検出モデルである。まず、ネックネットワークピラミッドアーキテクチャにおいて、小さなオブジェクトに対する検出層を新たに導入する。このモジュールはスライディングウィンドウの特徴抽出を使い、計算要求とパラメータ数の両方を効果的に最小化する。
論文参考訳（メタデータ） (2024-02-22T05:55:17Z)
AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文参考訳（メタデータ） (2022-08-24T16:54:38Z)
The Devil is in the Task: Exploiting Reciprocal Appearance-Localization Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。 DFR-Netという動的特徴反射ネットワークを導入する。我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文参考訳（メタデータ） (2021-12-28T07:31:18Z)
AGSFCOS: Based on attention mechanism and Scale-Equalizing pyramid network of object detection [10.824032219531095]
現在のCOCOデータセットの一般的な検出モデルと比較すると,精度はある程度向上している。我々の最適モデルはResNet50の背景で39.5%のCOCO APが得られる。
論文参考訳（メタデータ） (2021-05-20T08:41:02Z)
SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文参考訳（メタデータ） (2021-01-07T18:30:32Z)
InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文参考訳（メタデータ） (2020-07-16T18:27:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。