論文の概要: O3N: Omnidirectional Open-Vocabulary Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2603.12144v1
- Date: Thu, 12 Mar 2026 16:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.224486
- Title: O3N: Omnidirectional Open-Vocabulary Occupancy Prediction
- Title(参考訳): O3N:Omnidirectional Open-Vocabulary Occupancy Prediction
- Authors: Mengfei Duan, Hao Shi, Fei Teng, Guoqiang Zhao, Yuheng Zhang, Zhiyong Li, Kailun Yang,
- Abstract要約: O3N(Omnidirectional Omnidirectional Open-vocabulary Occupancy predictioN framework)について述べる。
O3Nは全方位のボクセルを極性-スピラルトポロジーに埋め込み、連続的な空間表現と長距離コンテキストモデリングを可能にする。
提案手法は,QuadOccおよびHuman360Occベンチマーク上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 31.91030387170798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and reconstructing the 3D world through omnidirectional perception is an inevitable trend in the development of autonomous agents and embodied intelligence. However, existing 3D occupancy prediction methods are constrained by limited perspective inputs and predefined training distribution, making them difficult to apply to embodied agents that require comprehensive and safe perception of scenes in open world exploration. To address this, we present O3N, the first purely visual, end-to-end Omnidirectional Open-vocabulary Occupancy predictioN framework. O3N embeds omnidirectional voxels in a polar-spiral topology via the Polar-spiral Mamba (PsM) module, enabling continuous spatial representation and long-range context modeling across 360°. The Occupancy Cost Aggregation (OCA) module introduces a principled mechanism for unifying geometric and semantic supervision within the voxel space, ensuring consistency between the reconstructed geometry and the underlying semantic structure. Moreover, Natural Modality Alignment (NMA) establishes a gradient-free alignment pathway that harmonizes visual features, voxel embeddings, and text semantics, forming a consistent "pixel-voxel-text" representation triad. Extensive experiments on multiple models demonstrate that our method not only achieves state-of-the-art performance on QuadOcc and Human360Occ benchmarks but also exhibits remarkable cross-scene generalization and semantic scalability, paving the way toward universal 3D world modeling. The source code will be made publicly available at https://github.com/MengfeiD/O3N.
- Abstract(参考訳): 全方位知覚による3次元世界理解と再構築は、自律エージェントや具体的知能の開発において必然的な傾向である。
しかし、既存の3D占有予測手法は、限られた視点入力と事前定義された訓練分布によって制約されるため、オープンワールド探索におけるシーンの包括的かつ安全な認識を必要とするエンボディエージェントに適用することは困難である。
この問題に対処するため、我々はO3N(Omnidirectional Omnidirectional Open-vocabulary Occupancy predictioN)フレームワークを提示する。
O3Nは極性スピラルマンバ(Parlar-spiral Mamba, PsM)モジュールを介して極性スピラルトポロジーに全方位ボクセルを埋め込み、360度にわたって連続的な空間表現と長距離コンテキストモデリングを可能にする。
Occupancy Cost Aggregation (OCA)モジュールは、ボクセル空間内の幾何学的および意味的監督を統一し、再構成された幾何学と基盤となる意味構造との整合性を確保するための原則的なメカニズムを導入している。
さらに、Natural Modality Alignment (NMA)は、視覚的特徴、ボクセル埋め込み、テキスト意味論を調和させる勾配のないアライメントパスを確立し、一貫した「ピクセル・ボクセルテキスト」表現トリードを形成する。
提案手法は,QuadOccおよびHuman360Occベンチマーク上での最先端性能を実現するだけでなく,クロスシーンな一般化とセマンティックな拡張性を示し,普遍的な3次元世界モデリングへの道を開いた。
ソースコードはhttps://github.com/MengfeiD/O3Nで公開されている。
関連論文リスト
- World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models [25.135316296678187]
既存の手法は、3Dグラウンドデータを介して統計的ショートカットを過度に適合させるか、2Dの視覚的知覚に限定される。
トレーニング不要な空間情報ツールキット World2Mind を提案する。
我々はWorld2MindがGPT-5.2のようなフロンティアモデルの性能を5%18%向上させることを示した。
論文 参考訳(メタデータ) (2026-03-10T15:12:14Z) - Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning [43.746951848993035]
空間知能は、明示的な空間的インストラクションチューニングによって課されるのではなく、2次元視覚のみから現れる。
本稿では,未提示のマルチビュー画像から直接,空間表現の統一化を学習する,自己教師型フレームワークであるSpa3Rを紹介する。
実験では、Spa3-VLMが3D VQAで58.6%の最先端の精度を達成し、従来の方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-02-24T18:37:34Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - Robust Mesh Saliency GT Acquisition in VR via View Cone Sampling and Geometric Smoothing [59.12032628787018]
バーチャルリアリティー(VR)における人中心視覚モデリングには3次元メッシュサリエンシ基底真理が不可欠である
現在のVRアイトラッキングパイプラインは、単一線サンプリングとユークリッドのスムース化に依存しており、テクスチャの注意を喚起し、ギャップをまたいだ信号の漏洩を引き起こす。
本稿では,これらの制約に対処する頑健な枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:20:12Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。