論文の概要: QueryOcc: Query-based Self-Supervision for 3D Semantic Occupancy
- arxiv url: http://arxiv.org/abs/2511.17221v1
- Date: Fri, 21 Nov 2025 13:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.028631
- Title: QueryOcc: Query-based Self-Supervision for 3D Semantic Occupancy
- Title(参考訳): QueryOcc:3Dセマンティックな実行のためのクエリベースのセルフスーパービジョン
- Authors: Adam Lilja, Ji Lan, Junsheng Fu, Lars Hammarstrand,
- Abstract要約: 画像から3Dシーンの幾何学と意味学を学ぶことは、コンピュータビジョンにおける中核的な課題であり、自動運転の重要な能力である。
大規模な3Dアノテーションは高価であるため、最近の研究は手動ラベルなしでセンサデータから直接自己教師付き学習を探索している。
クエリベースの自己教師型フレームワークであるQueryOccを導入し、独立した4Dセマンティッククエリを通じて、継続的3D占有を直接学習する。
- 参考スコア(独自算出の注目度): 9.514718375634345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning 3D scene geometry and semantics from images is a core challenge in computer vision and a key capability for autonomous driving. Since large-scale 3D annotation is prohibitively expensive, recent work explores self-supervised learning directly from sensor data without manual labels. Existing approaches either rely on 2D rendering consistency, where 3D structure emerges only implicitly, or on discretized voxel grids from accumulated lidar point clouds, limiting spatial precision and scalability. We introduce QueryOcc, a query-based self-supervised framework that learns continuous 3D semantic occupancy directly through independent 4D spatio-temporal queries sampled across adjacent frames. The framework supports supervision from either pseudo-point clouds derived from vision foundation models or raw lidar data. To enable long-range supervision and reasoning under constant memory, we introduce a contractive scene representation that preserves near-field detail while smoothly compressing distant regions. QueryOcc surpasses previous camera-based methods by 26% in semantic RayIoU on the self-supervised Occ3D-nuScenes benchmark while running at 11.6 FPS, demonstrating that direct 4D query supervision enables strong self-supervised occupancy learning. https://research.zenseact.com/publications/queryocc/
- Abstract(参考訳): 画像から3Dシーンの幾何学と意味学を学ぶことは、コンピュータビジョンにおける中核的な課題であり、自動運転の重要な能力である。
大規模な3Dアノテーションは違法に高価であるため、最近の研究は手動ラベルなしでセンサデータから直接自己教師付き学習を探索している。
既存のアプローチでは、3D構造が暗黙的にのみ現れるような2Dレンダリングの一貫性や、蓄積されたライダー点雲からの離散化されたボクセルグリッドに依存し、空間的精度とスケーラビリティを制限している。
クエリベースの自己教師型フレームワークであるQueryOccを導入し、隣接するフレーム間でサンプリングされた独立した4次元時空間クエリを通して、連続的な3Dセマンティック占有を直接学習する。
このフレームワークは、ビジョンファウンデーションモデルまたは生ライダーデータから派生した擬似点雲の監視をサポートする。
連続記憶下での長距離監視と推論を可能にするため,距離領域をスムーズに圧縮しながら,近接場の詳細を保存した契約型シーン表現を導入する。
QueryOccは、11.6 FPSで実行中の自己教師型Occ3D-nuScenesベンチマークにおいて、RayIoUのセマンティックスで従来のカメラベースのメソッドを26%上回る。
https://research.zenseact.com/publications/queryocc/
関連論文リスト
- Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルである
センサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文 参考訳(メタデータ) (2025-04-19T02:51:24Z) - LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering [0.5852077003870417]
LangOccはオープン語彙占有率推定の新しいアプローチである。
カメライメージによってのみ訓練され、視覚言語アライメントによって任意の意味を検出することができる。
我々はOcc3D-nuScenesデータセット上での自己教師型セマンティック占有度推定の最先端結果を得る。
論文 参考訳(メタデータ) (2024-07-24T14:22:55Z) - SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction [77.15924044466976]
本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
論文 参考訳(メタデータ) (2023-11-21T17:59:14Z) - Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving [34.368848580725576]
我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。
我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:40:08Z) - 4D Unsupervised Object Discovery [53.561750858325915]
本研究では,3次元点雲と2次元RGB画像の時間的情報を用いた4次元データからオブジェクトを共同で検出する4次元非教師対象探索を提案する。
本稿では,2次元ローカライゼーションネットワークで協調的に最適化された3次元点雲上にClusterNetを提案することで,この課題に対する最初の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-10T16:05:53Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。