Fugu-MT 論文翻訳(概要): Deep Learning for Omnidirectional Vision: A Survey and New Perspectives

論文の概要: Deep Learning for Omnidirectional Vision: A Survey and New Perspectives

arxiv url: http://arxiv.org/abs/2205.10468v2
Date: Tue, 24 May 2022 08:49:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-05 19:46:32.205245
Title: Deep Learning for Omnidirectional Vision: A Survey and New Perspectives
Title（参考訳）: 直視のための深層学習 : 調査と新たな展望
Authors: Hao Ai, Zidong Cao, Jinjing Zhu, Haotian Bai, Yucheng Chen and Lin Wang
Abstract要約: 本稿では,全方向視覚のためのディープラーニング手法の最近の進歩について,体系的かつ包括的なレビューと分析を行う。 i)全方位画像の原理,ODI上の畳み込み手法,およびデータセットの導入により,2次元平面画像データとの違いと難易度を明らかにすること,(ii)全方位視覚のためのDL手法の構造的・階層的分類,(iii)最新の学習戦略と応用の要約である。
参考スコア（独自算出の注目度）: 7.068031114801553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Omnidirectional image (ODI) data is captured with a 360x180 field-of-view, which is much wider than the pinhole cameras and contains richer spatial information than the conventional planar images. Accordingly, omnidirectional vision has attracted booming attention due to its more advantageous performance in numerous applications, such as autonomous driving and virtual reality. In recent years, the availability of customer-level 360 cameras has made omnidirectional vision more popular, and the advance of deep learning (DL) has significantly sparked its research and applications. This paper presents a systematic and comprehensive review and analysis of the recent progress in DL methods for omnidirectional vision. Our work covers four main contents: (i) An introduction to the principle of omnidirectional imaging, the convolution methods on the ODI, and datasets to highlight the differences and difficulties compared with the 2D planar image data; (ii) A structural and hierarchical taxonomy of the DL methods for omnidirectional vision; (iii) A summarization of the latest novel learning strategies and applications; (iv) An insightful discussion of the challenges and open problems by highlighting the potential research directions to trigger more research in the community.
Abstract（参考訳）: 全方位画像(odi)データは、ピンホールカメラよりもはるかに広く、従来の平面画像よりもリッチな空間情報を含む360x180の視野でキャプチャされる。そのため、自動運転や仮想現実など、多くのアプリケーションでより有利な性能を持つため、全方向ビジョンが注目を集めている。近年、顧客レベルの360度カメラが利用可能になり、全方向視界がより普及し、深層学習(DL)の進歩が研究や応用に大きな影響を与えている。本稿では,全方位視覚のためのdl法の最近の進歩を体系的かつ包括的にレビューし,分析する。私たちの作品は4つの主な内容をカバーしています一全方位画像の原理、ODI上の畳み込み方法及びデータセットの導入により、2次元平面画像データと比較した場合の差と難易度を明らかにすること。二全方向視覚のためのdl法の構造的及び階層的分類法三最新の新規学習戦略及び応用の概要 (4)コミュニティのさらなる研究を促すための潜在的研究の方向性を強調することで、課題とオープンな問題についての洞察に富んだ議論。

関連論文リスト

PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era [92.63017552735103]
この講演は、具体化されたAI時代、すなわち全方位視覚の急速な発展の新たなトレンドを示す。我々は、全方向生成、全方向知覚、全方向理解、および関連するデータセットの最近のブレークスルーを強調した。本稿では,4つの重要なサブシステムから構成されるAI時代における理想的なパノラマシステムアーキテクチャPANORAMAを提案する。
論文参考訳（メタデータ） (2025-09-16T11:54:37Z)
One Flight Over the Gap: A Survey from Perspective to Panoramic Vision [117.80970697177025]
本研究は,最近のパノラマ視覚技術,特にパノラマ・パノラマ・パノラマ適応についてレビューする。最初にパノラマ画像パイプラインと投影法を再検討し、構造的格差を分析するのに必要な事前知識を構築した。これに基づいて、300以上の研究論文から得られた20以上の代表的タスクを2次元でカバーする。
論文参考訳（メタデータ） (2025-09-04T17:59:10Z)
Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。 LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文参考訳（メタデータ） (2025-07-15T17:59:59Z)
A Systematic Investigation on Deep Learning-Based Omnidirectional Image and Video Super-Resolution [30.62413133817583]
本稿では,全方位画像とビデオ超解像の最近の進歩を体系的に概観する。新しいデータセットである360Instaを導入し、全方位画像とビデオをオーステンシャルに劣化させた。提案したデータセットと公開データセットの両方において,既存手法の総合的質的,定量的評価を行う。
論文参考訳（メタデータ） (2025-06-07T08:24:44Z)
A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision [5.208806195877025]
近年、顧客レベルの360度カメラが利用可能になったことにより、全方向視界がより普及している。ディープラーニング(DL)の進歩は、その研究と応用を大きく引き起こした。本稿では,全方位視における最近のDLの進歩について,体系的かつ包括的なレビューと分析を行った。
論文参考訳（メタデータ） (2025-02-11T08:05:11Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。画像のみを監督として多視点表現を再構築する。これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2024-11-22T03:59:41Z)
Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文参考訳（メタデータ） (2024-07-07T04:50:04Z)
Technique Report of CVPR 2024 PBDL Challenges [211.79824163599872]
物理に基づくビジョンは、画像から形状、反射率、光の分布、中性などのシーン特性を復元する過程を反転させることを目的としている。深層学習は様々な視覚タスクに対して有望な改善を示しており、物理に基づく視覚と組み合わせることで、これらのアプローチは視覚システムの堅牢性と精度を高めることができる。 CVPR 2024ワークショップで行われたPBDL 2024チャレンジの結果を要約する。
論文参考訳（メタデータ） (2024-06-15T21:44:17Z)
Vision-based Learning for Drones: A Survey [1.280979348722635]
先進的なサイバー物理システムとしてのドローンは、視覚ベースの学習の出現とともに、変貌を遂げている。このレビューでは、ドローンにおける視覚に基づく学習の包括的概要を提供し、その運用能力の向上における重要な役割を強調している。我々は、単一エージェントシステムからより複雑なマルチエージェントおよび異種システムシナリオまで、学習機能を備えた視覚ベースのドローンの様々な応用について検討する。
論文参考訳（メタデータ） (2023-12-08T12:57:13Z)
Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文参考訳（メタデータ） (2023-02-17T14:19:28Z)
Surround-View Vision-based 3D Detection for Autonomous Driving: A Survey [0.6091702876917281]
本稿では,自律運転に着目した既存のビジョンベース3D検出手法に関する文献調査を行う。文献や業界の動向が,サラウンドビューのイメージベース手法にどのように移行したかを強調し,この手法がどのような場合に対処するかについて考察した。
論文参考訳（メタデータ） (2023-02-13T19:30:17Z)
3D Object Detection from Images for Autonomous Driving: A Survey [68.33502122185813]
画像から3Dオブジェクトを検出することは、自動運転の基本的かつ困難な問題の一つだ。この問題を2015年から2021年にかけて200以上の研究が行われ、理論、アルゴリズム、応用の幅広い範囲で研究されている。我々は,この新奇で継続的な研究分野を包括的に調査し,画像に基づく3D検出に最もよく使用されるパイプラインを要約する。
論文参考訳（メタデータ） (2022-02-07T07:12:24Z)
Deep Learning on Monocular Object Pose Detection and Tracking: A Comprehensive Overview [8.442460766094674]
オブジェクトのポーズ検出と追跡は、自律運転、ロボット工学、拡張現実など、多くの分野で広く応用されているため、注目を集めている。ディープラーニングは、他のものよりも優れたパフォーマンスを示した最も有望なものです。本稿では,ディープラーニング技術経路に属するオブジェクトのポーズ検出と追跡の最近の進歩を概観する。
論文参考訳（メタデータ） (2021-05-29T12:59:29Z)
Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。 2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文参考訳（メタデータ） (2021-04-23T11:07:07Z)
Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。提案手法を2つの大規模データセット上で評価する。
論文参考訳（メタデータ） (2020-03-17T08:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。