論文の概要: PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.21992v1
- Date: Wed, 25 Feb 2026 15:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.876538
- Title: PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning
- Title(参考訳): PanoEnv: 強化学習によるパノラマ環境における3次元空間知能の探索
- Authors: Zekai Lin, Xu Zheng,
- Abstract要約: 360パノラマ画像は、バーチャルリアリティー、自律運転、総合的なシーン理解のためのロボティクスでますます利用されている。
現在の視覚言語モデル(VLM)は、幾何学的歪みと限定的な3次元監督のため、等角射影(ERP)画像の空間的推論に苦慮している。
合成3D環境から構築した大規模VQAベンチマークであるPanoEnvを紹介する。
我々の7Bモデルは、新しい最先端性能を実現し、全体的な精度を52.93%(+3.59%)、オープンエンド精度を14.83%に改善し、構造化タスク性能を維持した。
- 参考スコア(独自算出の注目度): 5.308328605042682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 360 panoramic images are increasingly used in virtual reality, autonomous driving, and robotics for holistic scene understanding. However, current Vision-Language Models (VLMs) struggle with 3D spatial reasoning on Equirectangular Projection (ERP) images due to geometric distortion and limited 3D supervision. We introduce PanoEnv, a large-scale VQA benchmark built from synthetic 3D environments, containing 14.8K questions across five categories (e.g., relative position, volume comparison) grounded in accurate 3D annotations including depth, segmentation, and bounding boxes. Benchmarking 14 state-of-the-art VLMs reveals limited 3D understanding, achieving only 49.34% overall accuracy and 8.36% on open-ended (OE) questions. To enhance 3D reasoning, we propose a reinforcement learning post-training framework based on Group Relative Policy Optimization (GRPO) with a ground-truth-guided reward that incorporates five geometry-aware strategies such as distance tolerance and spatial consistency. A two-stage curriculum further mitigates catastrophic forgetting: Stage 1 trains on structured tasks (true/false and multiple choice), and Stage 2 fine-tunes on mixed open-ended data to improve generalization. Our 7B model achieves new state-of-the-art performance, improving overall accuracy to 52.93% (+3.59%) and open-ended accuracy to 14.83% while maintaining structured-task performance. It also achieves top semantic evaluation scores (Q-Score 6.24, P-Score 5.95), surpassing 32B models. These results demonstrate that PanoEnv-QA and our curriculum-based RL framework effectively instill 3D spatial intelligence in VLMs for omnidirectional perception.
- Abstract(参考訳): 360パノラマ画像は、バーチャルリアリティー、自律運転、総合的なシーン理解のためのロボティクスでますます利用されている。
しかし、現在のビジョン・ランゲージ・モデル(VLM)は、幾何学的歪みと限られた3次元監督のために、等角射影(ERP)画像の空間的推論に苦慮している。
合成3D環境から構築された大規模VQAベンチマークであるPanoEnvを紹介し、深さ、セグメンテーション、バウンディングボックスを含む正確な3Dアノテーションに基づいて、5つのカテゴリ(例えば相対位置、ボリューム比較)で14.8Kの質問を含む。
最先端の14のVLMのベンチマークでは、3Dの理解が限られており、全体の精度は49.34%、オープンエンド(OE)の質問では8.36%に留まっている。
3D推論を強化するため,グループ相対政策最適化(GRPO)に基づく強化学習後学習フレームワークを提案する。
2段階のカリキュラムはさらに破滅的な忘れを緩和し、ステージ1は構造化されたタスク(真・偽・複数選択)で、ステージ2は混合されたオープンエンドデータで微調整を行い、一般化を改善している。
我々の7Bモデルは、新しい最先端性能を実現し、全体的な精度を52.93%(+3.59%)、オープンエンド精度を14.83%に改善し、構造化タスク性能を維持した。
また、トップセマンティック評価スコア(Q-Score 6.24、P-Score 5.95)も32Bモデルを超えている。
これらの結果は,PanoEnv-QAとカリキュラムベースのRLフレームワークが,全方位知覚のためのVLMに効果的に3次元空間知能を注入していることを示している。
関連論文リスト
- Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning [43.746951848993035]
空間知能は、明示的な空間的インストラクションチューニングによって課されるのではなく、2次元視覚のみから現れる。
本稿では,未提示のマルチビュー画像から直接,空間表現の統一化を学習する,自己教師型フレームワークであるSpa3Rを紹介する。
実験では、Spa3-VLMが3D VQAで58.6%の最先端の精度を達成し、従来の方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-02-24T18:37:34Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations [19.02933938928656]
ManiVID-3Dはロボット操作のための新しい3Dビジュアル強化学習アーキテクチャである。
自己教師付き不整形特徴学習を通じて、ビュー不変表現を学習する。
現状の手法よりも44.7%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-09-14T06:31:04Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - On Deep Learning for Geometric and Semantic Scene Understanding Using On-Vehicle 3D LiDAR [4.606106768645647]
3D LiDARポイントクラウドデータは、コンピュータビジョン、ロボティクス、自動運転におけるシーン認識に不可欠である。
我々は,パノラマ環境(近赤外)と反射率像を特徴とする,最初の高忠実度18チャネル3次元LiDARデータセットであるDurLARを提案する。
セグメンテーションの精度を向上させるために、Range-Aware Pointwise Distance Distribution (RAPiD) 機能と関連するRAPiD-Segアーキテクチャを導入する。
論文 参考訳(メタデータ) (2024-11-01T14:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。