論文の概要: PanoWorld: Towards Spatial Supersensing in 360$^\circ$ Panorama World
- arxiv url: http://arxiv.org/abs/2605.13169v1
- Date: Wed, 13 May 2026 08:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.914559
- Title: PanoWorld: Towards Spatial Supersensing in 360$^\circ$ Panorama World
- Title(参考訳): パノラマ世界:360$^\circ$パノラマ世界における空間スーパーセンシングを目指して
- Authors: Changpeng Wang, Xin Lin, Junhan Liu, Yuheng Liu, Zhen Wang, Donglian Qi, Yunfeng Yan, Xi Chen,
- Abstract要約: 本研究では, MLLMが連続的, 観測中心空間としての正方形射影パノラマを推論するために必要となるパノネイティブ理解について検討する。
球面形状を視覚ストリームに注入する球面空間交叉型パノワールドについて紹介する。
実験によると、PanoWorldはPanoSpace-Bench、H* Bench、R2R-CE Val-Unseenベンチマークにおいて、プロプライエタリベースラインとオープンソースベースラインの両方を大幅に上回っている。
- 参考スコア(独自算出の注目度): 20.19893789145407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large laboratory models (MLLMs) still struggle with spatial understanding under the dominant perspective-image paradigm, which inherits the narrow field of view of human-like perception. For navigation, robotic search, and 3D scene understanding, 360-degree panoramic sensing offers a form of supersensing by capturing the entire surrounding environment at once. However, existing MLLM pipelines typically decompose panoramas into multiple perspective views, leaving the spherical structure of equirectangular projection (ERP) largely implicit. In this paper, we study pano-native understanding, which requires an MLLM to reason over an ERP panorama as a continuous, observer-centered space. To this end, we first define the key abilities for pano-native understanding, including semantic anchoring, spherical localization, reference-frame transformation, and depth-aware 3D spatial reasoning. We then build a large-scale metadata construction pipeline that converts mixed-source ERP panoramas into geometry-aware, language-grounded, and depth-aware supervision, and instantiate these signals as capability-aligned instruction tuning data. On the model side, we introduce PanoWorld with Spherical Spatial Cross-Attention, which injects spherical geometry into the visual stream. We further construct PanoSpace-Bench, a diagnostic benchmark for evaluating ERP-native spatial reasoning. Experiments show that PanoWorld substantially outperforms both proprietary and open-source baselines on PanoSpace-Bench, H* Bench, and R2R-CE Val-Unseen benchmarks. These results demonstrate that robust panoramic reasoning requires dedicated pano-native supervision and geometry-aware model adaptation. All source code and proposed data will be publicly released.
- Abstract(参考訳): マルチモーダル大規模実験室モデル(MLLM)は、人間の知覚の狭い視野を継承する支配的な視点イメージパラダイムの下で、空間的理解に苦慮している。
ナビゲーション、ロボット検索、そして3Dシーン理解のために、360度パノラマセンシングは、周囲の環境全体を一度に捉えることで、スーパーセンシングの形式を提供する。
しかし、既存のMLLMパイプラインは通常、パノラマを複数の視点に分解し、等方射影(ERP)の球面構造をほとんど暗黙的に残している。
本稿では,ERPパノラマを連続観測中心空間として解釈するためにMLLMが必要となるパノネイティブ理解について検討する。
そこで我々はまず,意味的アンカー,球面局在化,参照フレーム変換,深度を考慮した3次元空間推論など,パノネイティブ理解の鍵となる能力を定義した。
次に、混在するERPパノラマを幾何学的、言語的、深層的な監視に変換する大規模なメタデータ構築パイプラインを構築し、これらの信号を機能整合型チューニングデータとしてインスタンス化する。
モデル側では,球面形状を視覚ストリームに注入する球面空間交叉型パノワールドを導入する。
さらに、ERPネイティブな空間推論を評価するための診断ベンチマークであるPanoSpace-Benchを構築した。
実験によると、PanoWorldはPanoSpace-Bench、H* Bench、R2R-CE Val-Unseenベンチマークにおいて、プロプライエタリベースラインとオープンソースベースラインの両方を大幅に上回っている。
これらの結果は、ロバストなパノラマ推論には、パノラマの専門監督と幾何学的モデル適応が必要であることを示している。
すべてのソースコードと提案されたデータは公開されます。
関連論文リスト
- S3KF: Spherical State-Space Kalman Filtering for Panoramic 3D Multi-Object Tracking [24.79542959759503]
パノラマ多対象追跡は、産業安全監視、広域ロボット認識、大規模ワークスペースにおけるインフラストラクチャライト展開において重要である。
既存の画像平面トラッカーは、カメラ投影に強く結合され、パノラマ画像では信頼性が低い。
回転する電動LiDARとクワッドフィッシュカメラリグをベースとしたパノラマ3次元多物体追跡フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-29T06:01:29Z) - PanoVGGT: Feed-Forward 3D Reconstruction from Panoramic Imagery [41.23812453847979]
PanoVGGTは、1つの前方パスで1つまたは複数のパノラマからカメラのポーズ、深度マップ、および3Dポイントの雲を共同で予測する。
さらに,深度と6-DoFのポーズアノテーションを備えた大規模屋外パノラマデータセットであるPanoCityをコントリビュートした。
論文 参考訳(メタデータ) (2026-03-18T10:24:06Z) - More than the Sum: Panorama-Language Models for Adverse Omni-Scenes [63.9800546079941]
既存の視覚言語モデル(VLM)はピンホール画像用に調整され、複数の視野の狭い入力を縫い合わせ、完全な全シーン理解を組み立てる。
本稿では,Panorama-Language Modeling (PLM) パラダイムについて紹介する。
論文 参考訳(メタデータ) (2026-03-10T12:19:50Z) - PanoWorld-X: Generating Explorable Panoramic Worlds via Sphere-Aware Video Diffusion [87.13016347332943]
PanoWorld-Xは、多彩なカメラ軌道を持つ高忠実で制御可能なパノラマビデオ生成のための新しいフレームワークである。
動作範囲,制御精度,視覚的品質など,様々な面で優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2025-09-29T16:22:00Z) - Dense360: Dense Understanding from Omnidirectional Panoramas [24.862817640267572]
信頼性に配慮したアノテーションを網羅した全方位パノラマデータセットを提案する。
具体的には,160Kパノラマと5Mのエンティティレベルキャプション,1Mのユニークな参照表現,100Kのエンティティグラウンドのパノラマシーン記述を含む。
論文 参考訳(メタデータ) (2025-06-17T12:35:23Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - MCPDepth: Omnidirectional Depth Estimation via Stereo Matching from Multi-Cylindrical Panoramas [49.891712558113845]
マルチシリンダパノラマ深さ推定(MCPDepth)を導入する。
MCPDepthは、全方位深度推定を強化するために設計された2段階のフレームワークである。
本手法は,屋外データセットのDeep360では平均絶対誤差(MAE)が18.8%,実データセットの3D60では19.9%向上する。
論文 参考訳(メタデータ) (2024-08-03T03:35:37Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。