Fugu-MT 論文翻訳(概要): Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction

論文の概要: Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction

arxiv url: http://arxiv.org/abs/2602.21552v1
Date: Wed, 25 Feb 2026 04:16:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.700663
Title: Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction
Title（参考訳）: まばらなガウス活動予測に先立つ視覚幾何学の一般化
Authors: Changqing Zhou, Yueru Luo, Changhao Chen,
Abstract要約: GPOccは、視覚的幾何学的先行情報を利用して、単眼での占有予測を行うフレームワークである。 Occ-ScanNet と EmbodiedOcc-ScanNet の実験は、大きな成功を収めた。
参考スコア（独自算出の注目度）: 10.394184895110007
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate 3D scene understanding is essential for embodied intelligence, with occupancy prediction emerging as a key task for reasoning about both objects and free space. Existing approaches largely rely on depth priors (e.g., DepthAnything) but make only limited use of 3D cues, restricting performance and generalization. Recently, visual geometry models such as VGGT have shown strong capability in providing rich 3D priors, but similar to monocular depth foundation models, they still operate at the level of visible surfaces rather than volumetric interiors, motivating us to explore how to more effectively leverage these increasingly powerful geometry priors for 3D occupancy prediction. We present GPOcc, a framework that leverages generalizable visual geometry priors (GPs) for monocular occupancy prediction. Our method extends surface points inward along camera rays to generate volumetric samples, which are represented as Gaussian primitives for probabilistic occupancy inference. To handle streaming input, we further design a training-free incremental update strategy that fuses per-frame Gaussians into a unified global representation. Experiments on Occ-ScanNet and EmbodiedOcc-ScanNet demonstrate significant gains: GPOcc improves mIoU by +9.99 in the monocular setting and +11.79 in the streaming setting over prior state of the art. Under the same depth prior, it achieves +6.73 mIoU while running 2.65$\times$ faster. These results highlight that GPOcc leverages geometry priors more effectively and efficiently. Code will be released at https://github.com/JuIvyy/GPOcc.
Abstract（参考訳）: 正確な3Dシーン理解は、インテリジェンスを具現化する上で不可欠であり、物体と自由空間の両方を推論するための重要なタスクとして、占有率予測が出現する。既存のアプローチは奥行き先(例えばDepthAnything)に大きく依存するが、3Dキューしか使用せず、性能と一般化を制限している。近年、VGGTのような視覚幾何学モデルでは、リッチな3次元先行モデルを提供する能力が強いが、単分子深度基礎モデルと同様に、それでも体積内よりも可視面のレベルで動作し、3次元占有予測にこれらの強力な幾何学的先行モデルをより効果的に活用する方法を探る動機となっている。 GPOccは,単分子占有予測に一般化可能な視覚幾何先行(GP)を利用するフレームワークである。提案手法は, 確率的占有推定のためのガウス的プリミティブとして表現される体積サンプルを生成するために, カメラ線に沿って内部に面点を拡大する。ストリーミング入力を処理するために、フレームごとのガウスを統一されたグローバル表現に融合する、トレーニング不要のインクリメンタルアップデート戦略をさらに設計する。 Occ-ScanNet と EmbodiedOcc-ScanNet の実験により、GPOcc は mIoU をモノラル設定で +9.99 、ストリーミング設定で +11.79 で改善した。同じ深さで、+6.73 mIoUを達成し、2.65$\times$速く走る。これらの結果は、GPOccがより効率的かつ効率的に幾何の先行を活用できることを浮き彫りにしている。コードはhttps://github.com/JuIvyy/GPOcc.comでリリースされる。

関連論文リスト

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文参考訳（メタデータ） (2026-02-27T08:54:20Z)
GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation [26.632472450402947]
VLA(Vision-Language-Action)モデルは、ロボット操作において強力な一般化を実現するが、主に反応性と2D中心のままである。予測力学および幾何学的先行性を持つ連続作用ポリシーを付加する幾何学的VLAフレームワークであるGeoPredictを提案する。 RoboCasa Human-50、LIBERO、実世界の操作タスクの実験は、GeoPredictが強いVLAベースラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-18T17:51:42Z)
PlanarGS: High-Fidelity Indoor 3D Gaussian Splatting Guided by Vision-Language Planar Priors [13.825701925456768]
PlanarGSは屋内シーンの再構築に適した3DGSベースのフレームワークである。 PlanarGSは正確で詳細な3D表面を再構築し、常に最先端の手法を大きなマージンで上回っている。
論文参考訳（メタデータ） (2025-10-27T23:32:19Z)
DGOcc: Depth-aware Global Query-based Network for Monocular 3D Occupancy Prediction [17.38916914453357]
2次元画像から大規模屋外シーンの3次元占有を予測することは、不適切で資源集約的である。モノクロ3DのtextbfOccupancy 予測のための textbfGlobal クエリベースのネットワーク textbfDGOcc を提案する。提案手法は,GPUと時間オーバーヘッドを低減しつつ,単分子的セマンティック占有率予測における最高の性能を実現する。
論文参考訳（メタデータ） (2025-04-10T07:44:55Z)
GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文参考訳（メタデータ） (2025-02-07T16:07:51Z)
GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [67.81475355852997]
3次元占有予測は、周囲の包括的認識のため、自動運転にとって重要である。本研究では、シーンの進化を知覚に利用するための世界モデルに基づくフレームワークを提案する。我々のフレームワークは、追加の計算を導入することなく、mIoUの単一フレームの性能を2%以上向上させる。
論文参考訳（メタデータ） (2024-12-13T18:59:54Z)
EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [72.96388875744704]
3D占有予測は周囲のシーンを包括的に記述する。既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-05T17:57:09Z)
AGS-Mesh: Adaptive Gaussian Splatting and Meshing with Geometric Priors for Indoor Room Reconstruction Using Smartphones [19.429461194706786]
室内シーンの正確な3次元再構成のためのガウススメッティング法における接合面深度と正規化のアプローチを提案する。我々のフィルタリング戦略と最適化設計は、メッシュ推定と新規ビュー合成の両方において大きな改善を示す。
論文参考訳（メタデータ） (2024-11-28T17:04:32Z)
Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement [8.592248643229675]
運転予測は自律運転(AD)において重要な役割を担っている既存の手法はしばしば高い計算コストを発生させるが、これはADのリアルタイム要求と矛盾する。ハイブリッドBEV-Voxel表現を用いた幾何学的意味的デュアルブランチネットワーク(GSDBN)を提案する。
論文参考訳（メタデータ） (2024-07-18T04:46:13Z)
Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文参考訳（メタデータ） (2021-07-29T16:30:33Z)
CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文参考訳（メタデータ） (2020-12-18T09:42:54Z)
3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文参考訳（メタデータ） (2020-03-31T09:33:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。