論文の概要: Integrating Saliency Ranking and Reinforcement Learning for Enhanced Object Detection
- arxiv url: http://arxiv.org/abs/2408.06803v1
- Date: Tue, 13 Aug 2024 10:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:46:21.998779
- Title: Integrating Saliency Ranking and Reinforcement Learning for Enhanced Object Detection
- Title(参考訳): 強化対象検出のための高次ランク付けと強化学習の統合
- Authors: Matthias Bartolo, Dylan Seychell, Josef Bajada,
- Abstract要約: 本研究では、強化学習(RL)に基づく視覚的注意法と給与ランキング技術を組み合わせた一連の実験について検討する。
この研究で得られた平均精度(mAP)は51.4で、RLをベースとした単体検出器のベンチマークを上回りました。
- 参考スコア(独自算出の注目度): 0.08192907805418582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the ever-growing variety of object detection approaches, this study explores a series of experiments that combine reinforcement learning (RL)-based visual attention methods with saliency ranking techniques to investigate transparent and sustainable solutions. By integrating saliency ranking for initial bounding box prediction and subsequently applying RL techniques to refine these predictions through a finite set of actions over multiple time steps, this study aims to enhance RL object detection accuracy. Presented as a series of experiments, this research investigates the use of various image feature extraction methods and explores diverse Deep Q-Network (DQN) architectural variations for deep reinforcement learning-based localisation agent training. Additionally, we focus on optimising the detection pipeline at every step by prioritising lightweight and faster models, while also incorporating the capability to classify detected objects, a feature absent in previous RL approaches. We show that by evaluating the performance of these trained agents using the Pascal VOC 2007 dataset, faster and more optimised models were developed. Notably, the best mean Average Precision (mAP) achieved in this study was 51.4, surpassing benchmarks set by RL-based single object detectors in the literature.
- Abstract(参考訳): 本研究は多種多様な物体検出手法を用いて,強化学習(RL)に基づく視覚的注意法と相性ランキング法を併用し,透明で持続可能なソリューションを探索する一連の実験を探索する。
初期バウンディングボックス予測のためのサリエンシランキングを統合し,その後にRL手法を適用して,複数ステップにわたる有限の動作によってこれらの予測を洗練させることにより,RLオブジェクト検出精度を向上させることを目的とした。
本研究は, 様々な画像特徴抽出手法の活用について検討し, 深部強化学習に基づく局部化学習のための多種多様な深部Q-Network (DQN) アーキテクチャのバリエーションについて検討する。
さらに、より軽量で高速なモデルを優先することで、各ステップにおける検出パイプラインの最適化に注力するとともに、検出対象を分類する機能も備えています。
本研究では,Pascal VOC 2007データセットを用いて,これらのトレーニングエージェントの性能を評価することにより,より高速で最適化されたモデルを開発した。
特に、この研究で達成された平均精度(mAP)は51.4で、RLを用いた単体検出器のベンチマークを上回りました。
関連論文リスト
- Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - Efficient Parameter Mining and Freezing for Continual Object Detection [0.0]
本稿では,ネットワークがシーケンシャルな更新にまたがって検出器の性能を維持する上で,どの層が最重要かを特定する効率的な方法を提案する。
これらの結果は,オブジェクト検出モデル内での漸進的な学習を容易にする上で,階層レベルのパラメータ分離の実質的なメリットを強調した。
論文 参考訳(メタデータ) (2024-02-20T01:07:32Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Mean-AP Guided Reinforced Active Learning for Object Detection [31.304039641225504]
本稿では,オブジェクト検出のための平均APガイド型アクティブラーニングについて紹介する。
MGRALは、予測されたモデル出力変化の概念を深層検知ネットワークの情報性として活用する新しいアプローチである。
提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。
論文 参考訳(メタデータ) (2023-10-12T14:59:22Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Sample-efficient Reinforcement Learning Representation Learning with
Curiosity Contrastive Forward Dynamics Model [17.41484483119774]
本稿では、CCFDM(Curiosity Contrastive Forward Dynamics Model)の学習フレームワークを検討し、よりサンプル効率の高い強化学習(RL)を実現する。
CCFDMはフォワードダイナミクスモデル(FDM)を導入し、その深層畳み込みニューラルネットワークベースのイメージエンコーダ(IE)をトレーニングするためのコントラスト学習を実行する
トレーニング中、CFDMはFDM予測誤差に基づいて生成された本質的な報酬を提供し、RLエージェントの好奇性を高めて探索を改善する。
論文 参考訳(メタデータ) (2021-03-15T10:08:52Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。