論文の概要: A Prediction-as-Perception Framework for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2603.12599v1
- Date: Fri, 13 Mar 2026 03:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.866321
- Title: A Prediction-as-Perception Framework for 3D Object Detection
- Title(参考訳): 3次元物体検出のための予測・知覚フレームワーク
- Authors: Song Zhang, Haoyu Chen, Ruibo Wang,
- Abstract要約: 予測知覚(PAP)フレームワークは、予測知覚アーキテクチャを3Dオブジェクト認識タスクに統合する。
PAP構造により、UniADの目標追跡精度が10%向上し、推論速度が15%向上する。
- 参考スコア(独自算出の注目度): 20.999208454871084
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans combine prediction and perception to observe the world. When faced with rapidly moving birds or insects, we can only perceive them clearly by predicting their next position and focusing our gaze there. Inspired by this, this paper proposes the Prediction-As-Perception (PAP) framework, integrating a prediction-perception architecture into 3D object perception tasks to enhance the model's perceptual accuracy. The PAP framework consists of two main modules: prediction and perception, primarily utilizing continuous frame information as input. Firstly, the prediction module forecasts the potential future positions of ego vehicles and surrounding traffic participants based on the perception results of the current frame. These predicted positions are then passed as queries to the perception module of the subsequent frame. The perceived results are iteratively fed back into the prediction module. We evaluated the PAP structure using the end-to-end model UniAD on the nuScenes dataset. The results demonstrate that the PAP structure improves UniAD's target tracking accuracy by 10% and increases the inference speed by 15%. This indicates that such a biomimetic design significantly enhances the efficiency and accuracy of perception models while reducing computational resource consumption.
- Abstract(参考訳): 人間は世界を観察するために予測と知覚を組み合わせる。
急速に移動する鳥や昆虫に直面すると、彼らは次の位置を予測し、そこで視線を集中させることで、それらをはっきりと認識できる。
そこで本研究では,予測知覚アーキテクチャを3次元オブジェクト認識タスクに統合し,モデルの知覚精度を高めることを目的とした予測知覚(PAP)フレームワークを提案する。
PAPフレームワークは、予測と知覚の2つの主要なモジュールで構成され、主に連続フレーム情報を入力として利用する。
まず、予測モジュールは、現在のフレームの認識結果に基づいて、エゴ車両及び周辺交通参加者の潜在的な将来位置を予測する。
これらの予測された位置は、後続のフレームの知覚モジュールにクエリとして渡される。
認識された結果は予測モジュールに繰り返しフィードバックされる。
我々は nuScenes データセット上で, エンドツーエンドモデル UniAD を用いてPAP 構造を評価した。
その結果、PAP構造により、UniADの目標追跡精度が10%向上し、推論速度が15%向上することが示された。
このことから, バイオミメティックな設計は, 計算資源消費量を削減しつつ, 知覚モデルの効率性と精度を著しく向上させることが示唆された。
関連論文リスト
- ER-Pose: Rethinking Keypoint-Driven Representation Learning for Real-Time Human Pose Estimation [2.2248409468073143]
単一段階の多人数ポーズ推定は、人間の位置推定とキーポイント予測を共同で行うことを目的としている。
ボックス駆動単段ポーズ推定は、トレーニング中にバウンディングボックスの監督によって暗黙的に制限される。
本稿では,主予測目標に対するポーズ推定を高めるキーポイント駆動型学習パラダイムを提案する。
MS COCOとCrowdPoseでは、ER-Pose-nはプレトレーニングなしで3.2/6.7、プレトレーニングで7.4/4.9のAP改善を実現している。
論文 参考訳(メタデータ) (2026-03-09T17:49:46Z) - ForecastOcc: Vision-based Semantic Occupancy Forecasting [16.699381591572163]
ForecastOccは視覚に基づくセマンティック占有予測のための最初のフレームワークであり、将来の占有状況とセマンティックカテゴリーを予測する。
本フレームワークは,過去のカメラ画像から直接,外部推定地図に頼らずに,複数の地平線に対するセマンティック占有率の予測を行う。
論文 参考訳(メタデータ) (2026-02-08T15:16:06Z) - Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [31.995016095663544]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。
提案するフレームワークであるLOPR(Latent Occupancy Prediction)は、生成アーキテクチャの潜在空間においてL-OGM予測を行う。
論文 参考訳(メタデータ) (2024-07-30T18:37:59Z) - Valeo4Cast: A Modular Approach to End-to-End Forecasting [93.86257326005726]
我々のソリューションはArgoverse 2 end-to-end Forecasting Challengeで63.82 mAPfでランクインした。
私たちは、知覚から予測までエンドツーエンドのトレーニングを通じて、このタスクに取り組む現在のトレンドから離れ、代わりにモジュラーアプローチを使用します。
私たちは、昨年の優勝者より+17.1ポイント、今年の優勝者より+13.3ポイント、予測結果を+17.1ポイント上回る。
論文 参考訳(メタデータ) (2024-06-12T11:50:51Z) - CogDPM: Diffusion Probabilistic Models via Cognitive Predictive Coding [62.075029712357]
本研究は認知拡散確率モデル(CogDPM)を紹介する。
CogDPMは拡散モデルの階層的サンプリング能力に基づく精度推定法と拡散モデル固有の性質から推定される精度重み付きガイダンスを備える。
我々は,Universal Kindomの降水量と表面風速データセットを用いた実世界の予測タスクにCogDPMを適用した。
論文 参考訳(メタデータ) (2024-05-03T15:54:50Z) - Towards Motion Forecasting with Real-World Perception Inputs: Are
End-to-End Approaches Competitive? [93.10694819127608]
実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案する。
我々の詳細な調査では、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップが明らかになりました。
論文 参考訳(メタデータ) (2023-06-15T17:03:14Z) - A positive feedback method based on F-measure value for Salient Object
Detection [1.9249287163937976]
本稿では,SODに対するF値に基づく正のフィードバック手法を提案する。
提案手法は,画像を検出して既存のモデルに入力し,それぞれの予測マップを取得する。
5つの公開データセットに対する実験結果から,提案手法の正のフィードバックは,5つの評価指標において最新の12の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-28T04:05:13Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Confidence Adaptive Anytime Pixel-Level Recognition [86.75784498879354]
任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。
我々は,任意のピクセルレベルの認識に対して,最初の統一とエンドツーエンドのモデルアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-01T20:01:57Z) - CGAP2: Context and gap aware predictive pose framework for early
detection of gestures [5.497826928713538]
我々は新しい文脈とギャップ認識型ポーズ予測フレームワーク(CGAP2)を提案する。
CGAP2は、オンライン形式でジェスチャーの予測認識のための将来のポーズデータを予測する。
CGAP2は他のジェスチャー認識システムに比べて1秒のアドバンテージがある。
論文 参考訳(メタデータ) (2020-11-18T11:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。