論文の概要: One Flight Over the Gap: A Survey from Perspective to Panoramic Vision
- arxiv url: http://arxiv.org/abs/2509.04444v2
- Date: Tue, 09 Sep 2025 15:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.812277
- Title: One Flight Over the Gap: A Survey from Perspective to Panoramic Vision
- Title(参考訳): 空を飛ぶ1つの飛行:パノラマからパノラマまで
- Authors: Xin Lin, Xian Ge, Dizhe Zhang, Zhaoliang Wan, Xianshun Wang, Xiangtai Li, Wenjie Jiang, Bo Du, Dacheng Tao, Ming-Hsuan Yang, Lu Qi,
- Abstract要約: 本研究は,最近のパノラマ視覚技術,特にパノラマ・パノラマ・パノラマ適応についてレビューする。
最初にパノラマ画像パイプラインと投影法を再検討し、構造的格差を分析するのに必要な事前知識を構築した。
これに基づいて、300以上の研究論文から得られた20以上の代表的タスクを2次元でカバーする。
- 参考スコア(独自算出の注目度): 117.80970697177025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by the demand for spatial intelligence and holistic scene perception, omnidirectional images (ODIs), which provide a complete 360\textdegree{} field of view, are receiving growing attention across diverse applications such as virtual reality, autonomous driving, and embodied robotics. Despite their unique characteristics, ODIs exhibit remarkable differences from perspective images in geometric projection, spatial distribution, and boundary continuity, making it challenging for direct domain adaption from perspective methods. This survey reviews recent panoramic vision techniques with a particular emphasis on the perspective-to-panorama adaptation. We first revisit the panoramic imaging pipeline and projection methods to build the prior knowledge required for analyzing the structural disparities. Then, we summarize three challenges of domain adaptation: severe geometric distortions near the poles, non-uniform sampling in Equirectangular Projection (ERP), and periodic boundary continuity. Building on this, we cover 20+ representative tasks drawn from more than 300 research papers in two dimensions. On one hand, we present a cross-method analysis of representative strategies for addressing panoramic specific challenges across different tasks. On the other hand, we conduct a cross-task comparison and classify panoramic vision into four major categories: visual quality enhancement and assessment, visual understanding, multimodal understanding, and visual generation. In addition, we discuss open challenges and future directions in data, models, and applications that will drive the advancement of panoramic vision research. We hope that our work can provide new insight and forward looking perspectives to advance the development of panoramic vision technologies. Our project page is https://insta360-research-team.github.io/Survey-of-Panorama
- Abstract(参考訳): 空間的インテリジェンスと全体的シーン知覚の需要によって駆動される全方位画像(ODI)は、完全な360度{}視野を提供するが、仮想現実、自律運転、エンボディロボットなどの多様なアプリケーションに注目が集まっている。
これらの特徴にもかかわらず、ODIは幾何学的射影、空間分布、境界連続性における視点像と顕著な差異を示しており、視点法から直接の領域適応は困難である。
本研究は,最近のパノラマ視覚技術,特にパノラマ・パノラマ・パノラマ適応についてレビューする。
最初にパノラマ画像パイプラインと投影法を再検討し、構造的格差を分析するのに必要な事前知識を構築した。
次に, 極近傍の厳密な幾何学的歪み, 等角射影(ERP)における非一様サンプリング, 周期的境界連続性という3つの領域適応の課題をまとめた。
これに基づいて、300以上の研究論文から得られた20以上の代表的タスクを2次元でカバーする。
一方,パノラマ特異的課題に対処するための代表的戦略のクロスメソッド分析を提案する。
一方,パノラマ視覚は視覚的品質向上と評価,視覚理解,マルチモーダル理解,視覚生成の4つのカテゴリに分類される。
さらに、パノラマ視覚研究の進展を促進するために、データ、モデル、アプリケーションにおけるオープンな課題と今後の方向性について議論する。
我々は、パノラマ視覚技術の進歩に向けて、新たな洞察と今後の展望を提供することができることを願っている。
私たちのプロジェクトページはhttps://insta360-research-team.github.io/Survey-of-Panoramaです。
関連論文リスト
- ViewPoint: Panoramic Video Generation with Pretrained Diffusion Models [52.87334248847314]
本研究では,パノラマ映像の生成に事前学習した視点映像モデルを用いた新しいフレームワークを提案する。
具体的には,世界空間の連続性と細かな視覚的詳細を同時に持つビューポイントマップという新しいパノラマ表現を設計する。
提案手法は,パノラマ映像を高度にダイナミックかつ空間的に一貫したパノラマ映像を合成し,最先端の性能を達成し,従来の手法を超越することができる。
論文 参考訳(メタデータ) (2025-06-30T04:33:34Z) - Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models [0.0]
本研究では,視覚言語モデルによる視覚的視点の把握能力について検討する。
提案手法では、1つのヒューマノイドのミニフィギュアを1つの物体とペアリングするシーンを慎重に制御する。
解析により,複雑な視覚タスクに必要な表面レベルの物体認識と深部空間的・視点的推論とのギャップが示唆された。
論文 参考訳(メタデータ) (2025-05-03T00:10:41Z) - A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision [5.208806195877025]
近年、顧客レベルの360度カメラが利用可能になったことにより、全方向視界がより普及している。
ディープラーニング(DL)の進歩は、その研究と応用を大きく引き起こした。
本稿では,全方位視における最近のDLの進歩について,体系的かつ包括的なレビューと分析を行った。
論文 参考訳(メタデータ) (2025-02-11T08:05:11Z) - A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective [71.03621840455754]
グラフニューラルネットワーク(GNN)はグラフ表現学習において勢いを増している。
Graph Transformerは、グラフ構造をTransformerアーキテクチャに組み込んで、局所的な近傍集約の制限を克服します。
本稿では,タスク指向の観点から,コンピュータビジョンにおけるGNNとグラフトランスフォーマーの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-09-27T08:10:14Z) - Deep Learning for Omnidirectional Vision: A Survey and New Perspectives [7.068031114801553]
本稿では,全方向視覚のためのディープラーニング手法の最近の進歩について,体系的かつ包括的なレビューと分析を行う。
i)全方位画像の原理,ODI上の畳み込み手法,およびデータセットの導入により,2次元平面画像データとの違いと難易度を明らかにすること,(ii)全方位視覚のためのDL手法の構造的・階層的分類,(iii)最新の学習戦略と応用の要約である。
論文 参考訳(メタデータ) (2022-05-21T00:19:56Z) - Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。
本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文 参考訳(メタデータ) (2021-03-02T10:27:05Z) - Perceptual Quality Assessment of Omnidirectional Images as Moving Camera
Videos [49.217528156417906]
ユーザの視聴行動やパノラマの知覚的品質を決定するには,2種類のVR視聴条件が不可欠である。
まず、異なる視聴条件下での異なるユーザの視聴行動を用いて、一方向の画像を複数のビデオ表現に変換する。
次に、高度な2次元フルレファレンスビデオ品質モデルを活用して、知覚された品質を計算する。
論文 参考訳(メタデータ) (2020-05-21T10:03:40Z) - An Exploration of Embodied Visual Exploration [97.21890864063872]
身体的コンピュータビジョンは、新しい非構造環境におけるロボットに対する知覚を考慮に入れている。
既存の視覚探索アルゴリズムの分類を提示し、それらをベンチマークするための標準フレームワークを作成する。
次に,提案フレームワークを用いた4つの最先端パラダイムの徹底的な実証的研究を行った。
論文 参考訳(メタデータ) (2020-01-07T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。