論文の概要: 3A-YOLO: New Real-Time Object Detectors with Triple Discriminative Awareness and Coordinated Representations
- arxiv url: http://arxiv.org/abs/2412.07168v1
- Date: Tue, 10 Dec 2024 04:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:15.541170
- Title: 3A-YOLO: New Real-Time Object Detectors with Triple Discriminative Awareness and Coordinated Representations
- Title(参考訳): 3A-YOLO:3つの識別的認識と協調表現を持つ新しいリアルタイム物体検出器
- Authors: Xuecheng Wu, Junxiao Xue, Liangyu Fu, Jiayu Nie, Danlei Huang, Xinyi Yin,
- Abstract要約: 本研究の目的は、複数の注意機構を活用し、YOLO検出ヘッドの3つの識別的認識を階層的に強化することである。
まず,TDA-YOLOモジュールを新たに提案し,スケール認識,空間認識,タスク認識の学習を統一的に行う。
第2に、中間特徴を操り、チャネル間の関係と正確な位置情報を協調的に学習する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent research on real-time object detectors (e.g., YOLO series) has demonstrated the effectiveness of attention mechanisms for elevating model performance. Nevertheless, existing methods neglect to unifiedly deploy hierarchical attention mechanisms to construct a more discriminative YOLO head which is enriched with more useful intermediate features. To tackle this gap, this work aims to leverage multiple attention mechanisms to hierarchically enhance the triple discriminative awareness of the YOLO detection head and complementarily learn the coordinated intermediate representations, resulting in a new series detectors denoted 3A-YOLO. Specifically, we first propose a new head denoted TDA-YOLO Module, which unifiedly enhance the representations learning of scale-awareness, spatial-awareness, and task-awareness. Secondly, we steer the intermediate features to coordinately learn the inter-channel relationships and precise positional information. Finally, we perform neck network improvements followed by introducing various tricks to boost the adaptability of 3A-YOLO. Extensive experiments across COCO and VOC benchmarks indicate the effectiveness of our detectors.
- Abstract(参考訳): リアルタイム物体検出器(例えばYOLOシリーズ)に関する最近の研究は、モデル性能を高めるための注意機構の有効性を実証している。
それでも既存の手法では、より差別的なYOLOヘッドを構築するために階層的注意機構を統一的に展開することを無視しており、より有用な中間機能を備えている。
このギャップに対処するため、この研究は複数の注意機構を活用し、YOLO検出ヘッドの3つの識別的認識を階層的に強化し、調整された中間表現を相補的に学習し、3A-YOLOと表される新しいシリーズ検出器を実現することを目的としている。
具体的には、まず、TDA-YOLOモジュールと呼ばれる新しいヘッドを提案し、スケール認識、空間認識、タスク認識の学習を統一的に拡張する。
第2に、中間特徴を操り、チャネル間の関係と正確な位置情報を協調的に学習する。
最後に,3A-YOLOの適応性を高めるために,ネックネットワークの改良を行った。
COCOおよびVOCベンチマークの広範な実験は、我々の検出器の有効性を示している。
関連論文リスト
- Reframing the Relationship in Out-of-Distribution Detection [4.182518087792777]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する新しいアプローチを提案する。
提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。
実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-27T02:27:28Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Spatio-Temporal Domain Awareness for Multi-Agent Collaborative
Perception [18.358998861454477]
車両間通信の潜在的な応用としてのマルチエージェント協調認識は、単一エージェント認識よりも自律走行車の性能知覚を著しく向上させる可能性がある。
本稿では,エージェント間の認識特性をエンドツーエンドに集約する新しい協調認識フレームワークSCOPEを提案する。
論文 参考訳(メタデータ) (2023-07-26T03:00:31Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z) - Towards End-to-end Semi-supervised Learning for One-stage Object
Detection [88.56917845580594]
本稿では,高度な一段検出ネットワークYOLOv5の半教師付き学習に焦点を当てた。
そこで我々は,Multi-view Pseudo-label Refinement (MPR) とDecoupled Semi-supervised Optimization (DSO) の2つの革新的な設計を取り入れた新しい教師学習レシピOneTeacherを提案する。
特に、MPRは、拡張ビューリファインメントとグローバルビューフィルタリングによって擬似ラベルの品質を改善し、DSOは構造的な微調整とタスク固有の擬似ラベルによる共同最適化競合を処理する。
論文 参考訳(メタデータ) (2023-02-22T11:35:40Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - Adversarial Self-Supervised Learning for Semi-Supervised 3D Action
Recognition [123.62183172631443]
本稿では,SSLと半教師付きスキームを緊密に結合する新しいフレームワークであるAdversarial Self-Supervised Learning (ASSL)を紹介する。
具体的には,3次元動作認識のための学習表現の識別能力を向上させる効果的なSSL方式を設計する。
論文 参考訳(メタデータ) (2020-07-12T08:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。