論文の概要: ForecastOcc: Vision-based Semantic Occupancy Forecasting
- arxiv url: http://arxiv.org/abs/2602.08006v1
- Date: Sun, 08 Feb 2026 15:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.923299
- Title: ForecastOcc: Vision-based Semantic Occupancy Forecasting
- Title(参考訳): ForecastOcc: ビジョンベースのセマンティック職業予測
- Authors: Riya Mohan, Juana Valeria Hurtado, Rohit Mohan, Abhinav Valada,
- Abstract要約: ForecastOccは視覚に基づくセマンティック占有予測のための最初のフレームワークであり、将来の占有状況とセマンティックカテゴリーを予測する。
本フレームワークは,過去のカメラ画像から直接,外部推定地図に頼らずに,複数の地平線に対するセマンティック占有率の予測を行う。
- 参考スコア(独自算出の注目度): 16.699381591572163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving requires forecasting both geometry and semantics over time to effectively reason about future environment states. Existing vision-based occupancy forecasting methods focus on motion-related categories such as static and dynamic objects, while semantic information remains largely absent. Recent semantic occupancy forecasting approaches address this gap but rely on past occupancy predictions obtained from separate networks. This makes current methods sensitive to error accumulation and prevents learning spatio-temporal features directly from images. In this work, we present ForecastOcc, the first framework for vision-based semantic occupancy forecasting that jointly predicts future occupancy states and semantic categories. Our framework yields semantic occupancy forecasts for multiple horizons directly from past camera images, without relying on externally estimated maps. We evaluate ForecastOcc in two complementary settings: multi-view forecasting on the Occ3D-nuScenes dataset and monocular forecasting on SemanticKITTI, where we establish the first benchmark for this task. We introduce the first baselines by adapting two 2D forecasting modules within our framework. Importantly, we propose a novel architecture that incorporates a temporal cross-attention forecasting module, a 2D-to-3D view transformer, a 3D encoder for occupancy prediction, and a semantic occupancy head for voxel-level forecasts across multiple horizons. Extensive experiments on both datasets show that ForecastOcc consistently outperforms baselines, yielding semantically rich, future-aware predictions that capture scene dynamics and semantics critical for autonomous driving.
- Abstract(参考訳): 自律運転は、将来の環境状態を効果的に推論するために、幾何と意味論の両方を時間とともに予測する必要がある。
既存の視覚に基づく占有予測手法は静的オブジェクトや動的オブジェクトなどの動作関連カテゴリに焦点をあてるが、セマンティック情報はいまだにほとんど欠落している。
最近のセマンティック占有予測手法はこのギャップに対処するが、別のネットワークから得られた過去の占有予測に依存する。
これにより、現在の手法はエラーの蓄積に敏感であり、画像から直接時空間的特徴を学習するのを防ぐことができる。
本稿では,視覚に基づくセマンティック占有予測のための最初のフレームワークであるForecastOccについて紹介する。
本フレームワークは,過去のカメラ画像から直接,外部推定地図に頼らずに,複数の地平線に対するセマンティック占有率の予測を行う。
我々はForecastOccを,Occ3D-nuScenesデータセット上のマルチビュー予測とSemanticKITTI上のモノクロ予測の2つの相補的な設定で評価する。
フレームワーク内に2つの2次元予測モジュールを適用することで,最初のベースラインを導入する。
本稿では,時間的相互注意予測モジュール,2D-to-3Dビュートランスフォーマー,占有予測用3Dエンコーダ,および複数の水平線をまたいだボクセルレベルの予測用セマンティック占有ヘッドを組み込んだ新しいアーキテクチャを提案する。
両方のデータセットに対する大規模な実験によると、ForecastOccはベースラインを一貫して上回り、セマンティックにリッチで将来を意識した予測をもたらし、シーンのダイナミクスやセマンティクスを捉え、自律運転に不可欠なものとなっている。
関連論文リスト
- ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Panoptic-Depth Forecasting [8.81078960241057]
本研究では、観測されていない将来のフレームのパン光学分割と深度マップを共同で予測するためのパン光学深度予測タスクを提案する。
我々は、LiDARポイントクラウドからの深度マップを計算し、ラベル付きデータを活用することで、人気のあるKITTI-360とCityscapesベンチマークを拡張した。
本稿では、トランスフォーマーベースのエンコーダ、予測モジュール、タスク固有のデコーダを組み込むことで、リッチな時間的表現を学習する新しいPDcastアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-18T14:21:07Z) - Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [31.995016095663544]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。
提案するフレームワークであるLOPR(Latent Occupancy Prediction)は、生成アーキテクチャの潜在空間においてL-OGM予測を行う。
論文 参考訳(メタデータ) (2024-07-30T18:37:59Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - LOPR: Latent Occupancy PRediction using Generative Models [28.49346874213506]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Predicting Future Occupancy Grids in Dynamic Environment with
Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。
現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。
我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文 参考訳(メタデータ) (2022-05-06T13:45:32Z) - Joint Forecasting of Panoptic Segmentations with Difference Attention [72.03470153917189]
シーン内の全てのオブジェクトを共同で予測する新しいパノプティックセグメンテーション予測モデルについて検討する。
提案したモデルをCityscapesとAIODriveデータセット上で評価する。
論文 参考訳(メタデータ) (2022-04-14T17:59:32Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。