論文の概要: Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.22809v2
- Date: Fri, 22 May 2026 21:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:38.041269
- Title: Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving
- Title(参考訳): Sensor2Sensor: 自律運転のためのクロス・エボディメント・センサ変換
- Authors: Jiahao Wang, Bo Sun, Yijing Bai, Vincent Casser, Songyou Peng, Zehao Zhu, Meng-Li Shih, Xander Masotto, Shih-Yang Su, Kanaad V Parvate, Tiancheng Ge, Linn Bieske, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang,
- Abstract要約: 自律運転システム(ADS)のロバストなトレーニングと検証には、膨大な多様なデータセットが必要である。
ダッシュカムのような情報源のデータは、膨大なスケールと多様性を提供し、重要なロングテールのシナリオや新しい環境を捉えている。
本研究では,シーン内ダッシュカム映像を高忠実なマルチモーダル・センサ・スイートに変換する新しい生成モデリングパラダイムであるSensor2Sensorを提案する。
- 参考スコア(独自算出の注目度): 35.07458382590446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) fleets, while high-fidelity, are limited in scale, diversity of sensor configurations, as well as geographic and long-tail-behavioral coverage. In contrast, in-the-wild data from sources like dashcams offers immense scale and diversity, capturing critical long-tail scenarios and novel environments. However, this unstructured, in-the-wild video data is incompatible with ADS expecting structured, multi-modal sensor inputs for validation and training. To bridge this data gap, we propose Sensor2Sensor, a novel generative modeling paradigm that translates in-the-wild monocular dashcam videos into a high-fidelity, multi-modal sensor suite (AV logs) comprising multi-view camera images and LiDAR point clouds. A core challenge is the lack of paired training data. We address this by converting real AV logs into dashcam-style videos via 4D Gaussian Splatting (4DGS) reconstruction and novel-view rendering. Sensor2Sensor then utilizes a diffusion architecture to perform the generative conversion. We perform comprehensive quantitative evaluations on the fidelity and realism of the generated sensor data. We demonstrate Sensor2Sensor's practical utility by converting challenging in-the-wild internet and dashcam footage into realistic, multi-modal data formats, further unlocking vast external data sources for AV development.
- Abstract(参考訳): 自律運転システム(ADS)のロバストなトレーニングと検証には、膨大な多様なデータセットが必要である。
自律走行車(AV)が収集する原単位データは、高忠実性にもかかわらず、大規模、センサー構成の多様性、地理的および長期の行動カバレッジに制限されている。
それとは対照的に、ダッシュカムのような情報源から得られた画像は膨大なスケールと多様性を提供し、重要なロングテールのシナリオや新しい環境を捉えている。
しかし、この非構造化インザミルドビデオデータは、構造化されたマルチモーダルセンサー入力をバリデーションとトレーニングのために期待するADSと互換性がない。
このデータギャップを埋めるために、我々はSensor2Sensorを提案する。これは、Wildのモノクロダッシュカムビデオからマルチビューカメラ画像とLiDAR点雲からなる高忠実でマルチモーダルなセンサースイート(AVログ)に変換する、新しい生成モデリングパラダイムである。
最大の課題は、ペアのトレーニングデータがないことだ。
実際のAVログを4D Gaussian Splatting (4DGS) によるダッシュカム式ビデオに変換することで、この問題に対処する。
Sensor2Sensorは拡散アーキテクチャを使用して生成変換を行う。
生成したセンサデータの忠実度と現実性に関する総合的な定量的評価を行う。
我々は、Sensor2Sensorの実用性を実証し、挑戦的なインターネットとダッシュカムの映像を現実的でマルチモーダルなデータ形式に変換し、さらに膨大な外部データソースをAV開発のためにアンロックする。
関連論文リスト
- OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving [58.693329943871355]
我々は,一貫したフレームワークでアライメントされたマルチモーダルセンサデータを生成するOminiGenを提案する。
このアプローチでは、共有のBirdu 2019s Eye View(BEV)スペースを活用して、マルチモーダル機能を統合する。
UAEはボリュームレンダリングによるマルチモーダルセンサデコーディングを実現し、正確で柔軟な再構築を可能にする。
論文 参考訳(メタデータ) (2025-12-16T09:18:15Z) - Neural Rendering for Sensor Adaptation in 3D Object Detection [3.10688583550805]
クロスセンサー領域ギャップが最先端の3Dオブジェクト検出器に与える影響について検討する。
我々は,BEVFormerのような後方投影を備えた高密度のBird's Eye View(BEV)表現に基づくモデルアーキテクチャが,センサ構成の変化に対して最も堅牢であることを示す。
ニューラルレンダリングに基づく新しいデータ駆動型センサ適応パイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:53:45Z) - Adaptive Domain Learning for Cross-domain Image Denoising [57.4030317607274]
本稿では,クロスドメイン画像認識のための適応型ドメイン学習手法を提案する。
私たちは、異なるセンサー(ソースドメイン)からの既存のデータに加えて、新しいセンサー(ターゲットドメイン)からの少量のデータを使用します。
ADLトレーニングスキームは、ターゲットドメインのモデルを微調整するのに有害なソースドメイン内のデータを自動的に削除する。
また,センサ固有の情報(センサタイプとISO)を取り入れ,画像認識のための入力データを理解するための変調モジュールも導入した。
論文 参考訳(メタデータ) (2024-11-03T08:08:26Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object
Detection [0.0]
マルチモーダル2Dオブジェクト検出のためのモジュールアーキテクチャであるHRFuserを提案する。
マルチレゾリューション方式で複数のセンサーを融合させ、任意の数の入力モードにスケールする。
我々は、nuScenesとDENSEデータセットに関する実験を通じて、我々のモデルが追加のモーダルから補完的な特徴を効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-06-30T09:40:05Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - High-Precision Digital Traffic Recording with Multi-LiDAR Infrastructure
Sensor Setups [0.0]
融解したLiDAR点雲と単一LiDAR点雲との差について検討した。
抽出した軌道の評価は, 融合インフラストラクチャーアプローチが追跡結果を著しく増加させ, 数cm以内の精度に達することを示す。
論文 参考訳(メタデータ) (2020-06-22T10:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。