論文の概要: Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2108.11510v1
- Date: Wed, 25 Aug 2021 23:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:16:55.528956
- Title: Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey
- Title(参考訳): コンピュータビジョンにおける深層強化学習 : 包括的調査
- Authors: Ngan Le, Vidhiwar Singh Rathour, Kashu Yamazaki, Khoa Luu, Marios
Savvides
- Abstract要約: ディープ強化学習は強化学習フレームワークを強化し、ディープニューラルネットワークの強力な表現を活用する。
近年の研究では、ファイナンス、医療、医療、ビデオゲーム、ロボティクス、コンピュータビジョンなど様々な分野で、深い強化学習が顕著に成功している。
- 参考スコア(独自算出の注目度): 29.309914600633032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning augments the reinforcement learning framework and
utilizes the powerful representation of deep neural networks. Recent works have
demonstrated the remarkable successes of deep reinforcement learning in various
domains including finance, medicine, healthcare, video games, robotics, and
computer vision. In this work, we provide a detailed review of recent and
state-of-the-art research advances of deep reinforcement learning in computer
vision. We start with comprehending the theories of deep learning,
reinforcement learning, and deep reinforcement learning. We then propose a
categorization of deep reinforcement learning methodologies and discuss their
advantages and limitations. In particular, we divide deep reinforcement
learning into seven main categories according to their applications in computer
vision, i.e. (i)landmark localization (ii) object detection; (iii) object
tracking; (iv) registration on both 2D image and 3D image volumetric data (v)
image segmentation; (vi) videos analysis; and (vii) other applications. Each of
these categories is further analyzed with reinforcement learning techniques,
network design, and performance. Moreover, we provide a comprehensive analysis
of the existing publicly available datasets and examine source code
availability. Finally, we present some open issues and discuss future research
directions on deep reinforcement learning in computer vision
- Abstract(参考訳): ディープ強化学習は強化学習フレームワークを強化し、ディープニューラルネットワークの強力な表現を活用する。
近年の研究では、ファイナンス、医療、医療、ビデオゲーム、ロボティクス、コンピュータビジョンなど様々な分野で、深い強化学習が顕著に成功している。
本稿では,コンピュータビジョンにおける深層強化学習の最近の研究動向と最新技術について概観する。
まず、深層学習、強化学習、深層学習の理論を理解することから始めます。
次に,深層強化学習手法の分類を提案し,その利点と限界について議論する。
特に,深層強化学習を,コンピュータビジョンへの応用によって7つの主要カテゴリに分割した。
(i)ランドマークの局所化(ii)オブジェクト検出、(iii)オブジェクト追跡、(iv)2次元画像と3次元画像のボリュームデータ(v)イメージセグメンテーション、(vi)ビデオ分析、(vii)その他のアプリケーション。
これらのカテゴリは、強化学習技術、ネットワーク設計、パフォーマンスによってさらに分析される。
さらに,既存の公開データセットの包括的解析を行い,ソースコードの可用性を検討する。
最後に,コンピュータビジョンにおける深層強化学習の課題と今後の研究方向性について述べる。
関連論文リスト
- A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - Integration and Performance Analysis of Artificial Intelligence and
Computer Vision Based on Deep Learning Algorithms [5.734290974917728]
本稿では,ディープラーニングとコンピュータビジョン技術の統合による応用効果の分析に焦点をあてる。
ディープラーニングは階層型ニューラルネットワークを構築することで歴史的なブレークスルーを実現し、エンドツーエンドの機能学習と画像の意味的理解を可能にする。
コンピュータビジョンの分野で成功した経験は、ディープラーニングアルゴリズムのトレーニングに強力なサポートを提供する。
論文 参考訳(メタデータ) (2023-12-20T09:37:06Z) - Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - Hyperbolic Deep Learning in Computer Vision: A Survey [20.811974050049365]
双曲空間は コンピュータビジョンの学習で 急速に勢いを増しています
コンピュータビジョンのための双曲学習に関する現在の文献の分類と詳細な概要を提供する。
我々は,すべてのテーマにおいて双曲学習がどのように実行されるのかを概説し,コンピュータビジョンにおける双曲学習の現在の進歩の恩恵を受ける主要な研究課題について論じる。
論文 参考訳(メタデータ) (2023-05-11T07:14:23Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - Tensor Methods in Computer Vision and Deep Learning [120.3881619902096]
テンソル(tensor)は、複数の次元の視覚データを自然に表現できるデータ構造である。
コンピュータビジョンにおけるディープラーニングパラダイムシフトの出現により、テンソルはさらに基本的なものになっている。
本稿では,表現学習と深層学習の文脈において,テンソルとテンソル法を深く,実践的に検討する。
論文 参考訳(メタデータ) (2021-07-07T18:42:45Z) - D2RL: Deep Dense Architectures in Reinforcement Learning [47.67475810050311]
コンピュータビジョンと生成モデルにおけるアーキテクチャ選択の成功からインスピレーションを得ます。
各種ロボット学習ベンチマーク環境における強化学習における深層ネットワークと高密度接続の利用について検討した。
論文 参考訳(メタデータ) (2020-10-19T01:27:07Z) - Distilled Semantics for Comprehensive Scene Understanding from Videos [53.49501208503774]
本稿では,一眼レフカメラによる全体像の理解に向けて,セマンティクスとともに深度や動きを学習し,さらなる一歩を踏み出した。
これら3つの課題を,知識蒸留と自己監督に基づく新たなトレーニングプロトコルによって共同で解決する。
その結果, 単眼深度推定, 光流, モーションセグメンテーションの最先端結果が得られた。
論文 参考訳(メタデータ) (2020-03-31T08:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。