論文の概要: RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation
- arxiv url: http://arxiv.org/abs/2503.10410v1
- Date: Thu, 13 Mar 2025 14:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:42.528481
- Title: RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation
- Title(参考訳): RoCo-Sim: 前景シミュレーションによる道路側協調知覚の強化
- Authors: Yuwen Du, Anning Hu, Zichen Chao, Yifan Lu, Junhao Ge, Genjia Liu, Weitao Wu, Lanjun Wang, Siheng Chen,
- Abstract要約: 道路側協調認識のための最初のシミュレーションフレームワークRoCo-Simを提案する。
RoCo-Simは多様なマルチビュー一貫した路面データを生成することができる。
コードと事前訓練されたモデルはまもなくリリースされる。
- 参考スコア(独自算出の注目度): 30.744548212616007
- License:
- Abstract: Roadside Collaborative Perception refers to a system where multiple roadside units collaborate to pool their perceptual data, assisting vehicles in enhancing their environmental awareness. Existing roadside perception methods concentrate on model design but overlook data issues like calibration errors, sparse information, and multi-view consistency, leading to poor performance on recent published datasets. To significantly enhance roadside collaborative perception and address critical data issues, we present the first simulation framework RoCo-Sim for road-side collaborative perception. RoCo-Sim is capable of generating diverse, multi-view consistent simulated roadside data through dynamic foreground editing and full-scene style transfer of a single image. RoCo-Sim consists of four components: (1) Camera Extrinsic Optimization ensures accurate 3D to 2D projection for roadside cameras; (2) A novel Multi-View Occlusion-Aware Sampler (MOAS) determines the placement of diverse digital assets within 3D space; (3) DepthSAM innovatively models foreground-background relationships from single-frame fixed-view images, ensuring multi-view consistency of foreground; and (4) Scalable Post-Processing Toolkit generates more realistic and enriched scenes through style transfer and other enhancements. RoCo-Sim significantly improves roadside 3D object detection, outperforming SOTA methods by 83.74 on Rcooper-Intersection and 83.12 on TUMTraf-V2X for AP70. RoCo-Sim fills a critical gap in roadside perception simulation. Code and pre-trained models will be released soon: https://github.com/duyuwen-duen/RoCo-Sim
- Abstract(参考訳): Roadside Collaborative Perception(ロードサイド・コラボレーション・パーセプション)とは、複数の道路ユニットが協調して知覚データをプールし、車両の環境意識を高めるシステムである。
既存の道路側の認識手法はモデル設計に重点を置いているが、キャリブレーションエラー、スパース情報、マルチビュー一貫性といったデータ問題を見落としているため、最近公開されたデータセットのパフォーマンスは低下している。
道路側協調認識を大幅に向上させ,重要なデータ問題に対処するために,道路側協調認識のための最初のシミュレーションフレームワークRoCo-Simを提案する。
RoCo-Simは、動的フォアグラウンド編集と1つのイメージのフルシーンスタイル転送を通じて、多視点で一貫したロードサイドデータを生成することができる。
RoCo-Simは,(1)カメラの外部最適化が道路カメラの正確な3Dから2Dプロジェクションを保証すること,(2)新しいマルチビューオクルージョン・アウェア・サンプラー(MOAS)が3D空間内の多様なデジタル資産の配置を決定すること,(3)DepthSAMは,1フレームの固定ビュー画像からの背景背景関係を革新的にモデル化し,前景のマルチビューの一貫性を確保すること,(4)スケーラブルなポストプロセッシングツールキットは,スタイル転送やその他の拡張を通じてより現実的でリッチなシーンを生成すること,の4つの構成要素で構成されている。
RoCo-Simは道路側の3Dオブジェクトの検出を大幅に改善し、Rcooper-Intersectionでは83.74、AP70ではTUMTraf-V2Xでは83.12、SOTA法では83.74を上回った。
RoCo-Simは道路側知覚シミュレーションにおいて重要なギャップを埋める。
コードと事前トレーニングされたモデルが近くリリースされる。
関連論文リスト
- MC-BEVRO: Multi-Camera Bird Eye View Road Occupancy Detection for Traffic Monitoring [23.396192711865147]
交通監視のための単一カメラの3次元認識は、閉塞性や視野の制限により大きな課題に直面している。
本稿では,複数の路面カメラを活用した新しいBird's-Eye-Viewロード占有検知フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-16T22:03:03Z) - Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation [62.5805866419814]
Vid2Simは、ニューラル3Dシーンの再構築とシミュレーションのためのスケーラブルで費用効率のよいReal2simパイプラインを通じてsim2realギャップをブリッジする新しいフレームワークである。
実験により、Vid2Simはデジタル双生児と現実世界の都市ナビゲーションの性能を31.2%、成功率68.3%で大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-01-12T03:01:15Z) - Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation [54.02069690134526]
本研究では,現実的でクローズドループなシミュレーションフレームワークであるDrivingSphereを提案する。
その中核となる考え方は、4Dの世界表現を構築し、実生活と制御可能な運転シナリオを生成することである。
動的で現実的なシミュレーション環境を提供することで、DrivingSphereは自律運転アルゴリズムの包括的なテストと検証を可能にする。
論文 参考訳(メタデータ) (2024-11-18T03:00:33Z) - Transfer Learning from Simulated to Real Scenes for Monocular 3D Object Detection [9.708971995966476]
本稿では,これらの課題に対処するための2段階のトレーニング戦略を紹介する。
当社のアプローチでは,大規模合成データセットであるRoadSense3Dのモデルをトレーニングしています。
実世界のデータセットの組み合わせでモデルを微調整し、実用条件への適応性を高める。
論文 参考訳(メタデータ) (2024-08-28T08:44:58Z) - Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks [47.07188762367792]
ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。
実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。
結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-03-22T17:49:11Z) - CADSim: Robust and Scalable in-the-wild 3D Reconstruction for
Controllable Sensor Simulation [44.83732884335725]
センサシミュレーションでは、車などの交通参加者を高品質な外観と明瞭な幾何学でモデル化する。
現在の再構築アプローチは、その広さとノイズのために、Wildのセンサーデータに苦労している。
本稿では,車体形状を自動再構成するために,CADモデルの小さなセットと微分レンダリングを併用したCADSimを提案する。
論文 参考訳(メタデータ) (2023-11-02T17:56:59Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。
まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。
得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文 参考訳(メタデータ) (2021-01-16T23:00:33Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。