論文の概要: OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.14225v1
- Date: Tue, 16 Dec 2025 09:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.658682
- Title: OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving
- Title(参考訳): OmniGen: 自動運転のための統合マルチモーダルセンサ
- Authors: Tao Tang, Enhui Ma, xia zhou, Letian Wang, Tianyi Yan, Xueyang Zhang, Kun Zhan, Peng Jia, XianPeng Lang, Jia-Wang Bian, Kaicheng Yu, Xiaodan Liang,
- Abstract要約: 我々は,一貫したフレームワークでアライメントされたマルチモーダルセンサデータを生成するOminiGenを提案する。
このアプローチでは、共有のBirdu 2019s Eye View(BEV)スペースを活用して、マルチモーダル機能を統合する。
UAEはボリュームレンダリングによるマルチモーダルセンサデコーディングを実現し、正確で柔軟な再構築を可能にする。
- 参考スコア(独自算出の注目度): 58.693329943871355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving has seen remarkable advancements, largely driven by extensive real-world data collection. However, acquiring diverse and corner-case data remains costly and inefficient. Generative models have emerged as a promising solution by synthesizing realistic sensor data. However, existing approaches primarily focus on single-modality generation, leading to inefficiencies and misalignment in multimodal sensor data. To address these challenges, we propose OminiGen, which generates aligned multimodal sensor data in a unified framework. Our approach leverages a shared Bird\u2019s Eye View (BEV) space to unify multimodal features and designs a novel generalizable multimodal reconstruction method, UAE, to jointly decode LiDAR and multi-view camera data. UAE achieves multimodal sensor decoding through volume rendering, enabling accurate and flexible reconstruction. Furthermore, we incorporate a Diffusion Transformer (DiT) with a ControlNet branch to enable controllable multimodal sensor generation. Our comprehensive experiments demonstrate that OminiGen achieves desired performances in unified multimodal sensor data generation with multimodal consistency and flexible sensor adjustments.
- Abstract(参考訳): 自動運転は目覚ましい進歩を遂げており、主に現実世界のデータ収集によって推進されている。
しかし、多様かつコーナーケースのデータを取得することは、費用がかかり非効率である。
生成モデルは、現実的なセンサーデータを合成することで、有望な解決策として現れてきた。
しかし、既存のアプローチは主に単一モダリティ生成に重点を置いており、マルチモーダルセンサデータの非効率性と誤調整につながっている。
これらの課題に対処するため,我々はOminiGenを提案する。
提案手法では,共有のBird\u2019s Eye View (BEV) 空間を利用してマルチモーダル特徴を統一し,新しい一般化可能なマルチモーダル再構成手法であるUAEを設計し,LiDARとマルチビューカメラデータを共同で復号する。
UAEはボリュームレンダリングによるマルチモーダルセンサデコーディングを実現し、正確で柔軟な再構築を可能にする。
さらに,Diffusion Transformer (DiT) を制御ネットブランチに組み込んで,制御可能なマルチモーダルセンサ生成を実現する。
総合的な実験により,OminiGenは,マルチモーダル整合性とフレキシブルなセンサ調整を備えた統合マルチモーダルセンサデータ生成において,望ましい性能を達成できることが実証された。
関連論文リスト
- A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion [2.7745600113170994]
ホーム環境における包括的行動認識のための新しいベンチマークであるMultiSensor-Homeデータセットを紹介する。
また,マルチモーダルマルチビュー変換器を用いたセンサフュージョン (MultiTSF) 法を提案する。
論文 参考訳(メタデータ) (2025-04-03T05:23:08Z) - MultiTSF: Transformer-based Sensor Fusion for Human-Centric Multi-view and Multi-modal Action Recognition [2.7745600113170994]
マルチモーダル・マルチビュー観測による行動認識は、監視、ロボティクス、スマート環境における応用において大きな可能性を秘めている。
マルチモーダルマルチビュー変換器を用いたセンサフュージョン(MultiTSF)を提案する。
提案手法はトランスフォーマーを用いて動的にビュー間の関係をモデル化し,複数のビューにまたがる時間的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2025-04-03T05:04:05Z) - Graph-Based Multi-Modal Sensor Fusion for Autonomous Driving [3.770103075126785]
本稿では,グラフに基づく状態表現の開発に焦点をあてた,マルチモーダルセンサ融合に対する新しいアプローチを提案する。
本稿では,マルチモーダルグラフを融合する最初のオンライン状態推定手法であるSensor-Agnostic Graph-Aware Kalman Filterを提案する。
提案手法の有効性を,合成および実世界の運転データセットを用いた広範囲な実験により検証した。
論文 参考訳(メタデータ) (2024-11-06T06:58:17Z) - CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge
Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。
S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。
SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文 参考訳(メタデータ) (2021-09-08T22:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。