Fugu-MT 論文翻訳(概要): 3A-YOLO: New Real-Time Object Detectors with Triple Discriminative Awareness and Coordinated Representations

論文の概要: 3A-YOLO: New Real-Time Object Detectors with Triple Discriminative Awareness and Coordinated Representations

arxiv url: http://arxiv.org/abs/2412.07168v1
Date: Tue, 10 Dec 2024 04:01:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.217299
Title: 3A-YOLO: New Real-Time Object Detectors with Triple Discriminative Awareness and Coordinated Representations
Title（参考訳）: 3A-YOLO:3つの識別的認識と協調表現を持つ新しいリアルタイム物体検出器
Authors: Xuecheng Wu, Junxiao Xue, Liangyu Fu, Jiayu Nie, Danlei Huang, Xinyi Yin,
Abstract要約: 本研究の目的は、複数の注意機構を活用し、YOLO検出ヘッドの3つの識別的認識を階層的に強化することである。まず,TDA-YOLOモジュールを新たに提案し,スケール認識,空間認識,タスク認識の学習を統一的に行う。第2に、中間特徴を操り、チャネル間の関係と正確な位置情報を協調的に学習する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research on real-time object detectors (e.g., YOLO series) has demonstrated the effectiveness of attention mechanisms for elevating model performance. Nevertheless, existing methods neglect to unifiedly deploy hierarchical attention mechanisms to construct a more discriminative YOLO head which is enriched with more useful intermediate features. To tackle this gap, this work aims to leverage multiple attention mechanisms to hierarchically enhance the triple discriminative awareness of the YOLO detection head and complementarily learn the coordinated intermediate representations, resulting in a new series detectors denoted 3A-YOLO. Specifically, we first propose a new head denoted TDA-YOLO Module, which unifiedly enhance the representations learning of scale-awareness, spatial-awareness, and task-awareness. Secondly, we steer the intermediate features to coordinately learn the inter-channel relationships and precise positional information. Finally, we perform neck network improvements followed by introducing various tricks to boost the adaptability of 3A-YOLO. Extensive experiments across COCO and VOC benchmarks indicate the effectiveness of our detectors.
Abstract（参考訳）: リアルタイム物体検出器(例えばYOLOシリーズ)に関する最近の研究は、モデル性能を高めるための注意機構の有効性を実証している。それでも既存の手法では、より差別的なYOLOヘッドを構築するために階層的注意機構を統一的に展開することを無視しており、より有用な中間機能を備えている。このギャップに対処するため、この研究は複数の注意機構を活用し、YOLO検出ヘッドの3つの識別的認識を階層的に強化し、調整された中間表現を相補的に学習し、3A-YOLOと表される新しいシリーズ検出器を実現することを目的としている。具体的には、まず、TDA-YOLOモジュールと呼ばれる新しいヘッドを提案し、スケール認識、空間認識、タスク認識の学習を統一的に拡張する。第2に、中間特徴を操り、チャネル間の関係と正確な位置情報を協調的に学習する。最後に,3A-YOLOの適応性を高めるために,ネックネットワークの改良を行った。 COCOおよびVOCベンチマークの広範な実験は、我々の検出器の有効性を示している。

関連論文リスト

DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection [0.46040036610482665]
DGE-YOLOは、マルチモーダル情報を効果的に融合するために設計された拡張YOLOベースの検出フレームワークである。具体的には、モダリティ固有の特徴抽出のためのデュアルブランチアーキテクチャを導入し、モデルが赤外線と可視画像の両方を処理できるようにする。セマンティック表現をさらに強化するために,空間規模をまたいだ特徴学習を向上する効率的なマルチスケールアテンション(EMA)機構を提案する。
論文参考訳（メタデータ） (2025-06-29T14:19:18Z)
YOLO-RS: Remote Sensing Enhanced Crop Detection Methods [0.32985979395737786]
既存のターゲット検出手法は、リモートセンシング画像において、小さなターゲットを扱う際の性能が劣っている。 YOLO-RSは、小さなターゲットの検出を大幅に強化した最新のYolov11に基づいている。リモートセンシング画像における小目標検出作業におけるYOLO-RSの有効性と適用可能性を検証する実験を行った。
論文参考訳（メタデータ） (2025-04-15T13:13:22Z)
Evaluating and Improving Graph-based Explanation Methods for Multi-Agent Coordination [1.1137087573421256]
グラフニューラルネットワーク(GNN)が採用され、マルチロボットとマルチエージェント学習に極めて有効であることが示されている。複数エージェントの協調関係を説明するための既存のGNN説明手法の適合性について検討し,その特徴付けを行う。本稿では,GATベースのポリシーを既存のグラフベースの説明書に適応できるような注意エントロピー正規化項を提案する。
論文参考訳（メタデータ） (2025-02-14T03:25:45Z)
CLDA-YOLO: Visual Contrastive Learning Based Domain Adaptive YOLO Detector [10.419327930845922]
非教師付きドメイン適応(UDA)アルゴリズムは、ドメインシフトの条件下でオブジェクト検出器の性能を著しく向上させることができる。視覚コントラスト学習(CLDA-YOLO)に基づく教師なし領域適応型YOLO検出器を提案する。
論文参考訳（メタデータ） (2024-12-16T14:25:52Z)
Reframing the Relationship in Out-of-Distribution Detection [4.182518087792777]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する新しいアプローチを提案する。提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文参考訳（メタデータ） (2024-05-27T02:27:28Z)
YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文参考訳（メタデータ） (2024-01-30T18:59:38Z)
Spatio-Temporal Domain Awareness for Multi-Agent Collaborative Perception [18.358998861454477]
車両間通信の潜在的な応用としてのマルチエージェント協調認識は、単一エージェント認識よりも自律走行車の性能知覚を著しく向上させる可能性がある。本稿では,エージェント間の認識特性をエンドツーエンドに集約する新しい協調認識フレームワークSCOPEを提案する。
論文参考訳（メタデータ） (2023-07-26T03:00:31Z)
Weakly-supervised HOI Detection via Prior-guided Bi-level Representation Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。 HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文参考訳（メタデータ） (2023-03-02T14:41:31Z)
Towards End-to-end Semi-supervised Learning for One-stage Object Detection [88.56917845580594]
本稿では,高度な一段検出ネットワークYOLOv5の半教師付き学習に焦点を当てた。そこで我々は,Multi-view Pseudo-label Refinement (MPR) とDecoupled Semi-supervised Optimization (DSO) の2つの革新的な設計を取り入れた新しい教師学習レシピOneTeacherを提案する。特に、MPRは、拡張ビューリファインメントとグローバルビューフィルタリングによって擬似ラベルの品質を改善し、DSOは構造的な微調整とタスク固有の擬似ラベルによる共同最適化競合を処理する。
論文参考訳（メタデータ） (2023-02-22T11:35:40Z)
A lightweight and accurate YOLO-like network for small target detection in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。 YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。 YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文参考訳（メタデータ） (2022-04-05T16:29:49Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)
Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文参考訳（メタデータ） (2020-11-23T08:05:39Z)
Adversarial Self-Supervised Learning for Semi-Supervised 3D Action Recognition [123.62183172631443]
本稿では,SSLと半教師付きスキームを緊密に結合する新しいフレームワークであるAdversarial Self-Supervised Learning (ASSL)を紹介する。具体的には,3次元動作認識のための学習表現の識別能力を向上させる効果的なSSL方式を設計する。
論文参考訳（メタデータ） (2020-07-12T08:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。