論文の概要: Deep Learning for Omnidirectional Vision: A Survey and New Perspectives
- arxiv url: http://arxiv.org/abs/2205.10468v1
- Date: Sat, 21 May 2022 00:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 19:45:25.249301
- Title: Deep Learning for Omnidirectional Vision: A Survey and New Perspectives
- Title(参考訳): 直視のための深層学習 : 調査と新たな展望
- Authors: Hao Ai, Zidong Cao, Jinjing Zhu, Haotian Bai, Yucheng Chen and Ling
Wang
- Abstract要約: 本稿では,全方向視覚のためのディープラーニング手法の最近の進歩について,体系的かつ包括的なレビューと分析を行う。
i)全方位画像の原理,ODI上の畳み込み手法,およびデータセットの導入により,2次元平面画像データとの違いと難易度を明らかにすること,(ii)全方位視覚のためのDL手法の構造的・階層的分類,(iii)最新の学習戦略と応用の要約である。
- 参考スコア(独自算出の注目度): 6.239159164954703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omnidirectional image (ODI) data is captured with a 360x180 field-of-view,
which is much wider than the pinhole cameras and contains richer spatial
information than the conventional planar images. Accordingly, omnidirectional
vision has attracted booming attention due to its more advantageous performance
in numerous applications, such as autonomous driving and virtual reality. In
recent years, the availability of customer-level 360 cameras has made
omnidirectional vision more popular, and the advance of deep learning (DL) has
significantly sparked its research and applications. This paper presents a
systematic and comprehensive review and analysis of the recent progress in DL
methods for omnidirectional vision. Our work covers four main contents: (i) An
introduction to the principle of omnidirectional imaging, the convolution
methods on the ODI, and datasets to highlight the differences and difficulties
compared with the 2D planar image data; (ii) A structural and hierarchical
taxonomy of the DL methods for omnidirectional vision; (iii) A summarization of
the latest novel learning strategies and applications; (iv) An insightful
discussion of the challenges and open problems by highlighting the potential
research directions to trigger more research in the community.
- Abstract(参考訳): 全方位画像(odi)データは、ピンホールカメラよりもはるかに広く、従来の平面画像よりもリッチな空間情報を含む360x180の視野でキャプチャされる。
そのため、自動運転や仮想現実など、多くのアプリケーションでより有利な性能を持つため、全方向ビジョンが注目を集めている。
近年、顧客レベルの360度カメラが利用可能になり、全方向視界がより普及し、深層学習(DL)の進歩が研究や応用に大きな影響を与えている。
本稿では,全方位視覚のためのdl法の最近の進歩を体系的かつ包括的にレビューし,分析する。
私たちの作品は4つの主な内容をカバーしています
一 全方位画像の原理、ODI上の畳み込み方法及びデータセットの導入により、2次元平面画像データと比較した場合の差と難易度を明らかにすること。
二 全方向視覚のためのdl法の構造的及び階層的分類法
三 最新の新規学習戦略及び応用の概要
(4)コミュニティのさらなる研究を促すための潜在的研究の方向性を強調することで、課題とオープンな問題についての洞察に富んだ議論。
関連論文リスト
- VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - Technique Report of CVPR 2024 PBDL Challenges [211.79824163599872]
物理に基づくビジョンは、画像から形状、反射率、光の分布、中性などのシーン特性を復元する過程を反転させることを目的としている。
深層学習は様々な視覚タスクに対して有望な改善を示しており、物理に基づく視覚と組み合わせることで、これらのアプローチは視覚システムの堅牢性と精度を高めることができる。
CVPR 2024ワークショップで行われたPBDL 2024チャレンジの結果を要約する。
論文 参考訳(メタデータ) (2024-06-15T21:44:17Z) - Vision-based Learning for Drones: A Survey [1.280979348722635]
先進的なサイバー物理システムとしてのドローンは、視覚ベースの学習の出現とともに、変貌を遂げている。
このレビューでは、ドローンにおける視覚に基づく学習の包括的概要を提供し、その運用能力の向上における重要な役割を強調している。
我々は、単一エージェントシステムからより複雑なマルチエージェントおよび異種システムシナリオまで、学習機能を備えた視覚ベースのドローンの様々な応用について検討する。
論文 参考訳(メタデータ) (2023-12-08T12:57:13Z) - Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。
深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文 参考訳(メタデータ) (2023-02-17T14:19:28Z) - Surround-View Vision-based 3D Detection for Autonomous Driving: A Survey [0.6091702876917281]
本稿では,自律運転に着目した既存のビジョンベース3D検出手法に関する文献調査を行う。
文献や業界の動向が,サラウンドビューのイメージベース手法にどのように移行したかを強調し,この手法がどのような場合に対処するかについて考察した。
論文 参考訳(メタデータ) (2023-02-13T19:30:17Z) - 3D Object Detection from Images for Autonomous Driving: A Survey [68.33502122185813]
画像から3Dオブジェクトを検出することは、自動運転の基本的かつ困難な問題の一つだ。
この問題を2015年から2021年にかけて200以上の研究が行われ、理論、アルゴリズム、応用の幅広い範囲で研究されている。
我々は,この新奇で継続的な研究分野を包括的に調査し,画像に基づく3D検出に最もよく使用されるパイプラインを要約する。
論文 参考訳(メタデータ) (2022-02-07T07:12:24Z) - Deep Learning on Monocular Object Pose Detection and Tracking: A
Comprehensive Overview [8.442460766094674]
オブジェクトのポーズ検出と追跡は、自律運転、ロボット工学、拡張現実など、多くの分野で広く応用されているため、注目を集めている。
ディープラーニングは、他のものよりも優れたパフォーマンスを示した最も有望なものです。
本稿では,ディープラーニング技術経路に属するオブジェクトのポーズ検出と追跡の最近の進歩を概観する。
論文 参考訳(メタデータ) (2021-05-29T12:59:29Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。