論文の概要: A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision
- arxiv url: http://arxiv.org/abs/2502.10444v1
- Date: Tue, 11 Feb 2025 08:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:42.132051
- Title: A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision
- Title(参考訳): 表現学習,最適化方略,及び全方位視覚への応用に関する調査
- Authors: Hao Ai, Zidong Cao, Lin Wang,
- Abstract要約: 近年、顧客レベルの360度カメラが利用可能になったことにより、全方向視界がより普及している。
ディープラーニング(DL)の進歩は、その研究と応用を大きく引き起こした。
本稿では,全方位視における最近のDLの進歩について,体系的かつ包括的なレビューと分析を行った。
- 参考スコア(独自算出の注目度): 5.208806195877025
- License:
- Abstract: Omnidirectional image (ODI) data is captured with a field-of-view of 360x180, which is much wider than the pinhole cameras and captures richer surrounding environment details than the conventional perspective images. In recent years, the availability of customer-level 360 cameras has made omnidirectional vision more popular, and the advance of deep learning (DL) has significantly sparked its research and applications. This paper presents a systematic and comprehensive review and analysis of the recent progress of DL for omnidirectional vision. It delineates the distinct challenges and complexities encountered in applying DL to omnidirectional images as opposed to traditional perspective imagery. Our work covers four main contents: (i) A thorough introduction to the principles of omnidirectional imaging and commonly explored projections of ODI; (ii) A methodical review of varied representation learning approaches tailored for ODI; (iii) An in-depth investigation of optimization strategies specific to omnidirectional vision; (iv) A structural and hierarchical taxonomy of the DL methods for the representative omnidirectional vision tasks, from visual enhancement (e.g., image generation and super-resolution) to 3D geometry and motion estimation (e.g., depth and optical flow estimation), alongside the discussions on emergent research directions; (v) An overview of cutting-edge applications (e.g., autonomous driving and virtual reality), coupled with a critical discussion on prevailing challenges and open questions, to trigger more research in the community.
- Abstract(参考訳): 全方位画像(ODI)データは360x180の視野で撮影され、ピンホールカメラよりもはるかに広く、従来の視点画像よりも周囲の環境の詳細を捉えている。
近年、顧客レベルの360度カメラが利用可能になり、全方向視界がより普及し、深層学習(DL)の進歩が研究や応用に大きな影響を与えている。
本稿では,全方位視における最近のDLの進歩について,体系的かつ包括的なレビューと分析を行った。
従来の視点画像とは対照的に、全方位画像にDLを適用する際に遭遇する課題と複雑さを詳述する。
私たちの作品は4つの主要な内容を扱っています。
一 全方位イメージングの原理の徹底的な紹介及びODIの概説
2 ODIに適した多様な表現学習手法の方法論的検討
三 全方位視覚に特有な最適化戦略の詳細な調査
四 視覚強調(例えば画像生成及び超解像)から3次元幾何学及び運動推定(例えば、深度及び光フロー推定)に至るまで、全方位視覚タスクのためのDL法の構造的・階層的分類法。
(v)最先端アプリケーションの概要(例えば、自動運転、バーチャルリアリティ)と、普及している課題とオープンな疑問に関する批判的な議論を合わせて、コミュニティにおけるさらなる研究の引き金となる。
関連論文リスト
- IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - Discrete Latent Perspective Learning for Segmentation and Detection [40.9258359611346]
本稿では,多視点融合学習のための新しいフレームワークであるDLPLを提案する。
DLPLは、様々なシナリオやビジョンタスクに適用可能な、普遍的な視点学習フレームワークである。
論文 参考訳(メタデータ) (2024-06-15T02:40:49Z) - 3D Scene Geometry Estimation from 360$^\circ$ Imagery: A Survey [1.3654846342364308]
本稿では,先駆的かつ最先端の3次元シーン形状推定手法に関する包括的調査を行う。
まず、球面カメラモデルの基本概念を再考し、最も一般的な取得技術と表現形式についてレビューする。
次に、単色レイアウトと深度推論のアプローチを調査し、球面データに適した学習ベースソリューションの最近の進歩を強調した。
論文 参考訳(メタデータ) (2024-01-17T14:57:27Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - Deep Learning for Omnidirectional Vision: A Survey and New Perspectives [7.068031114801553]
本稿では,全方向視覚のためのディープラーニング手法の最近の進歩について,体系的かつ包括的なレビューと分析を行う。
i)全方位画像の原理,ODI上の畳み込み手法,およびデータセットの導入により,2次元平面画像データとの違いと難易度を明らかにすること,(ii)全方位視覚のためのDL手法の構造的・階層的分類,(iii)最新の学習戦略と応用の要約である。
論文 参考訳(メタデータ) (2022-05-21T00:19:56Z) - 3D Object Detection from Images for Autonomous Driving: A Survey [68.33502122185813]
画像から3Dオブジェクトを検出することは、自動運転の基本的かつ困難な問題の一つだ。
この問題を2015年から2021年にかけて200以上の研究が行われ、理論、アルゴリズム、応用の幅広い範囲で研究されている。
我々は,この新奇で継続的な研究分野を包括的に調査し,画像に基づく3D検出に最もよく使用されるパイプラインを要約する。
論文 参考訳(メタデータ) (2022-02-07T07:12:24Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - 3D Human Shape and Pose from a Single Low-Resolution Image with
Self-Supervised Learning [105.49950571267715]
3次元人物形状とポーズ推定のための既存のディープラーニング手法は、比較的高解像度な入力画像に依存している。
本稿では,レゾリューション・アウェア・ネットワーク,セルフ・スーパービジョン・ロス,コントラッシブ・ラーニング・スキームからなるRCC-Netを提案する。
これら2つの新たなトレーニング損失は,3次元形状を学習し,弱教師ありの姿勢を示す。
論文 参考訳(メタデータ) (2020-07-27T16:19:52Z) - Seeing Around Corners with Edge-Resolved Transient Imaging [15.44831979669091]
非視線画像(NLOS)は、視野の外側の物体の画像を形成する。
拡散反射は散乱光をあらゆる方向に反射し、弱い信号と方向情報の損失をもたらす。
本稿では,垂直端から角分解能,パルス光源からの時間応答から長手分解能を導出する角を周角で見る方法を提案する。
論文 参考訳(メタデータ) (2020-02-17T18:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。