論文の概要: Vec-QMDP: Vectorized POMDP Planning on CPUs for Real-Time Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.08334v1
- Date: Mon, 09 Feb 2026 07:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.275094
- Title: Vec-QMDP: Vectorized POMDP Planning on CPUs for Real-Time Autonomous Driving
- Title(参考訳): Vec-QMDP:リアルタイム自律運転のためのCPU上でのベクトルPOMDP計画
- Authors: Xuanjin Jin, Yanxin Dong, Bin Sun, Huan Xu, Zhihui Hao, XianPeng Lang, Panpan Cai,
- Abstract要約: 本稿では, POMDP 探索と最新の CPU SIMD アーキテクチャを協調する CPU 並列プランナ Vec-QMDP を提案する。
Vec-QMDPは、最先端のシリアルプランナーよりも227Times$-1073timesのスピードアップを達成した。
- 参考スコア(独自算出の注目度): 8.933077584568268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning under uncertainty for real-world robotics tasks, such as autonomous driving, requires reasoning in enormous high-dimensional belief spaces, rendering the problem computationally intensive. While parallelization offers scalability, existing hybrid CPU-GPU solvers face critical bottlenecks due to host-device synchronization latency and branch divergence on SIMT architectures, limiting their utility for real-time planning and hindering real-robot deployment. We present Vec-QMDP, a CPU-native parallel planner that aligns POMDP search with modern CPUs' SIMD architecture, achieving $227\times$--$1073\times$ speedup over state-of-the-art serial planners. Vec-QMDP adopts a Data-Oriented Design (DOD), refactoring scattered, pointer-based data structures into contiguous, cache-efficient memory layouts. We further introduce a hierarchical parallelism scheme: distributing sub-trees across independent CPU cores and SIMD lanes, enabling fully vectorized tree expansion and collision checking. Efficiency is maximized with the help of UCB load balancing across trees and a vectorized STR-tree for coarse-level collision checking. Evaluated on large-scale autonomous driving benchmarks, Vec-QMDP achieves state-of-the-art planning performance with millisecond-level latency, establishing CPUs as a high-performance computing platform for large-scale planning under uncertainty.
- Abstract(参考訳): 自律運転のような現実世界のロボットタスクの不確実性の下での計画には、膨大な高次元の信念空間での推論が必要であり、問題を計算的に集約する。
並列化はスケーラビリティを提供するが、既存のハイブリッドCPU-GPUソルバは、ホストデバイス同期のレイテンシとSIMTアーキテクチャ上の分岐のばらつきにより、重大なボトルネックに直面している。
提案する CPU ネイティブ並列プランナである Vec-QMDP は,PMDP 探索を最新の CPU の SIMD アーキテクチャに整合させ,最新シリアルプランナを高速化する。
Vec-QMDPはData-Oriented Design (DOD)を採用し、散在するポインタベースのデータ構造を連続的にキャッシュ効率の良いメモリレイアウトにリファクタリングする。
さらに、独立したCPUコアとSIMDレーンにサブツリーを分散し、完全にベクトル化されたツリー展開と衝突チェックを可能にする階層並列化方式を導入する。
木間のUPB負荷分散と、粗いレベルの衝突チェックのためのベクトル化STR木を用いて効率を最大化する。
大規模自動運転ベンチマークで評価されたVec-QMDPは、ミリ秒レベルのレイテンシで最先端の計画性能を実現し、不確実な大規模計画のための高性能なコンピューティングプラットフォームとしてCPUを確立する。
関連論文リスト
- Parallel-in-Time Nonlinear Optimal Control via GPU-native Sequential Convex Programming [2.8852807790754618]
本稿では,連続凸プログラミングと乗算器のコンセンサスに基づく交互方向法を組み合わせた,フルGPUネイティブなトラジェクトリ最適化フレームワークを提案する。
本研究は,有人エッジコンピューティングプラットフォームを用いて,四重項アジャイル飛行タスクと火星搭載降下問題の解法を検証した。
ベンチマークでは、高度に最適化された12コアのCPUベースラインよりも、持続的な4倍のスループットのスピードアップとエネルギー消費の51%削減が明らかにされている。
論文 参考訳(メタデータ) (2026-03-11T12:39:14Z) - Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks [96.60530830276281]
RuleSafeは、スケーラブルなLLM支援シミュレーションフレームワーク上に構築された、新しいオペレーティングベンチマークである。
VQ-Memoryはベクトル量子化変分オートエンコーダを用いたコンパクトで構造化された時間表現である。
論文 参考訳(メタデータ) (2026-03-10T11:13:54Z) - An LLVM-Based Optimization Pipeline for SPDZ [0.0]
我々はSPDZプロトコルのための概念実証LLVMベースの最適化パイプラインを実装した。
フロントエンドは軽量なプライバシアノテーションを備えたCのサブセットを受け入れ、LLVM IRに格下げします。
我々のバックエンドは、最適化されたIR上でデータフローと制御フローの分析を行い、ノンブロッキングランタイムスケジューラを駆動します。
論文 参考訳(メタデータ) (2025-12-11T20:53:35Z) - Vectorized Online POMDP Planning [4.097364225798782]
POMDPは部分的な可観測性問題の下での計画のためのフレームワークである。
本稿では,新たな並列オンライン解法であるVectorized Online POMDP Planner (VOPP)を提案する。
VOPPは、計画に関連するすべてのデータ構造をテンソルの集合として表現し、全ての計画ステップを完全にベクトル化された計算として実装する。
論文 参考訳(メタデータ) (2025-10-31T05:21:39Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。