論文の概要: Eagle: End-to-end Deep Reinforcement Learning based Autonomous Control
of PTZ Cameras
- arxiv url: http://arxiv.org/abs/2304.04356v1
- Date: Mon, 10 Apr 2023 02:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:05:29.295517
- Title: Eagle: End-to-end Deep Reinforcement Learning based Autonomous Control
of PTZ Cameras
- Title(参考訳): Eagle: PTZカメラのエンドツーエンド深部強化学習に基づく自律制御
- Authors: Sandeep Singh Sandha, Bharathan Balaji, Luis Garcia, Mani Srivastava
- Abstract要約: パンティルトゾム(PTZ)カメラの自律制御のためのエンド・ツー・エンドディープ強化学習(RL)ソリューションを提案する。
撮像画像の中心付近の被写体関心を解像度で維持し、最新技術よりも17%高いトラッキング時間を有することにより、優れたカメラ制御を導入する。
- 参考スコア(独自算出の注目度): 4.8020206717026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches for autonomous control of pan-tilt-zoom (PTZ) cameras use
multiple stages where object detection and localization are performed
separately from the control of the PTZ mechanisms. These approaches require
manual labels and suffer from performance bottlenecks due to error propagation
across the multi-stage flow of information. The large size of object detection
neural networks also makes prior solutions infeasible for real-time deployment
in resource-constrained devices. We present an end-to-end deep reinforcement
learning (RL) solution called Eagle to train a neural network policy that
directly takes images as input to control the PTZ camera. Training
reinforcement learning is cumbersome in the real world due to labeling effort,
runtime environment stochasticity, and fragile experimental setups. We
introduce a photo-realistic simulation framework for training and evaluation of
PTZ camera control policies. Eagle achieves superior camera control performance
by maintaining the object of interest close to the center of captured images at
high resolution and has up to 17% more tracking duration than the
state-of-the-art. Eagle policies are lightweight (90x fewer parameters than
Yolo5s) and can run on embedded camera platforms such as Raspberry PI (33 FPS)
and Jetson Nano (38 FPS), facilitating real-time PTZ tracking for
resource-constrained environments. With domain randomization, Eagle policies
trained in our simulator can be transferred directly to real-world scenarios.
- Abstract(参考訳): 既存のPTZカメラの自律制御手法では、PTZ機構の制御とは独立して物体検出と位置決めを行う複数のステージが使用されている。
これらのアプローチでは、手動のラベルが必要であり、多段階の情報の流路におけるエラーの伝播によるパフォーマンスのボトルネックに悩まされる。
オブジェクト検出ニューラルネットワークの大規模化により、リソース制約のあるデバイスへのリアルタイムデプロイメントにおいて、事前ソリューションが実現不可能になる。
本稿では,PTZカメラを直接入力として撮像するニューラルネットワークポリシをトレーニングするために,Eagleというエンドツーエンドの深部強化学習(RL)ソリューションを提案する。
トレーニング強化学習は,ラベル付け作業やランタイム環境の確率性,脆弱な実験セットアップなどによって,現実の世界では困難である。
PTZカメラ制御ポリシーのトレーニングと評価のためのフォトリアリスティック・シミュレーション・フレームワークを提案する。
イーグルは、撮像画像の中心に近い興味の対象を高解像度で維持することで、優れたカメラ制御性能を達成し、最先端技術よりも最大17%のトラッキング時間を有する。
イーグルポリシーは軽量(Yolo5sより90倍少ないパラメータ)で、Raspberry PI (33 FPS)やJetson Nano (38 FPS)のような組み込みカメラプラットフォーム上で動作し、リソース制約のある環境に対するリアルタイムPTZトラッキングを容易にする。
ドメインのランダム化では、シミュレータでトレーニングされたEagleポリシーを直接現実世界のシナリオに転送することができます。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Efficient Camera Exposure Control for Visual Odometry via Deep Reinforcement Learning [10.886819238167286]
本研究は、露光制御のためのエージェントの訓練に深層強化学習フレームワークを用いる。
トレーニングプロセスを容易にするために,軽量なイメージシミュレータを開発した。
VOシステムを強化するために異なるレベルの報酬関数が作成される。
論文 参考訳(メタデータ) (2024-08-30T04:37:52Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory
Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。
我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。
本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文 参考訳(メタデータ) (2023-04-04T15:46:42Z) - A Flexible Framework for Virtual Omnidirectional Vision to Improve
Operator Situation Awareness [2.817412580574242]
本稿では,ロボットのどこに設置した複数のカメラを融合させる新しい手法に基づいて,仮想プロジェクションのためのフレキシブルなフレームワークを提案する。
カメラ画像と幾何学的3Dライダーデータを融合させることでシーン理解を改善するための補完的なアプローチを提案し,色付き点雲を得る。
論文 参考訳(メタデータ) (2023-02-01T10:40:05Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - Learning Perception-Aware Agile Flight in Cluttered Environments [38.59659342532348]
乱雑な環境下での知覚に敏感で最小時間飛行を実現するニューラルネットワークポリシーを学習する手法を提案する。
提案手法は認識と制御を密に結合し,計算速度(10倍高速)と成功率に有意な優位性を示す。
本研究では, クローズドループ制御性能を最大50km/hの速さで実機とハードウェア・イン・ザ・ループシミュレーションを用いて実証する。
論文 参考訳(メタデータ) (2022-10-04T18:18:58Z) - C^3Net: End-to-End deep learning for efficient real-time visual active
camera control [4.09920839425892]
スマートカメラ監視、スマート環境、ドローンなどのアプリケーションにおける自動化されたリアルタイムビジュアルシステムの必要性は、視覚的アクティブな監視と制御のための方法の改善を必要とする。
本稿では,視覚情報からカメラ運動へ直接移行する深層畳み込み型カメラ制御ニューラルネットワークを提案する。
カメラをコントロールし、生のピクセル値から複数のターゲットに従うために、ボックスアノテーションをバウンドすることなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-07-28T09:31:46Z) - Learning a State Representation and Navigation in Cluttered and Dynamic
Environments [6.909283975004628]
本稿では,四足ロボットによる局所ナビゲーションを実現するための学習ベースのパイプラインを提案する。
ロボットは、環境を明示的にマッピングすることなく、奥行きカメラのフレームに基づいて、安全な場所へ移動することができる。
本システムでは,ノイズの多い奥行き画像の処理が可能であり,訓練中の動的障害物を回避でき,局所的な空間意識を付与できることを示す。
論文 参考訳(メタデータ) (2021-03-07T13:19:06Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。