論文の概要: InterFuserDVS: Event-Enhanced Sensor Fusion for Safe RL-Based Decision Making
- arxiv url: http://arxiv.org/abs/2605.04355v1
- Date: Tue, 05 May 2026 23:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.576553
- Title: InterFuserDVS: Event-Enhanced Sensor Fusion for Safe RL-Based Decision Making
- Title(参考訳): InterFuserDVS: 安全なRLベースの意思決定のためのイベント強化型センサフュージョン
- Authors: Mustafa Sakhaia, Kaung Sithua, Min Khant Soe Okea, Maciej Wielgosza,
- Abstract要約: イベントフレームの蓄積をInterFuserのトランスフォーマーベースのバックボーンに組み込む新しいトークンベースの融合戦略を導入する。
カーラーニング・トゥ・アクト (CARLA) におけるカーラーニング・トゥ・アクト (CARLA) ベンチマークに対する我々のアプローチを評価し、DVSを取り入れることで運転エージェントの堅牢性が向上することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving systems rely heavily on robust sensor fusion to perceive complex envi- ronments. Traditional setups using RGB cameras and LiDAR often struggle in high-dynamic- range scenes or high-speed scenarios due to motion blur and latency. Dynamic Vision Sensors (DVS), or event cameras, offer a paradigm shift by capturing asynchronous brightness changes with microsecond temporal resolution and high dynamic range. In this paper, we propose an extended architecture of the state-of-the-art InterFuser model, integrating DVS as an additional modality to enhance perception reliability. We introduce a novel token-based fusion strategy that incorporates accumulated event frames into the transformer-based backbone of InterFuser. Our method leverages the complementary nature of RGB, LiDAR, and DVS data. We evaluate our approach on the Car Learning to Act (CARLA) Leaderboard benchmarks, demonstrating that the inclusion of DVS improves the robustness of the driving agent, achieving a competitive Driving Score of 77.2 and a superior Route Completion of 100%. The results indicate that event-based vision is a promising direction for improving safety and performance in adverse lighting and dynamic conditions.
- Abstract(参考訳): 自律運転システムは複雑なエンビ・ローメントを知覚するために、堅牢なセンサー融合に大きく依存している。
RGBカメラやLiDARを使った従来のセットアップは、動きのぼやけや遅延のために、高ダイナミックレンジのシーンや高速シナリオで苦労することが多い。
ダイナミックビジョンセンサー(DVS)またはイベントカメラは、マイクロ秒時間分解能と高ダイナミックレンジで非同期輝度変化をキャプチャすることでパラダイムシフトを提供する。
本稿では,現在最先端のInterFuserモデルの拡張アーキテクチャを提案し,DVSを追加のモダリティとして統合し,認識信頼性を高める。
イベントフレームの蓄積をInterFuserのトランスフォーマーベースのバックボーンに組み込む新しいトークンベースの融合戦略を導入する。
提案手法は,RGB,LiDAR,DVSデータの相補的特性を利用する。
カーラーニング・トゥ・アクト (CARLA) におけるカーラーニング・トゥ・アクト (CARLA) ベンチマークに対する我々のアプローチを評価し、DVSを組み込むことで運転エージェントの堅牢性が向上し、競争力77.2のドライビングスコアと、より優れたルートコンプリートを100%達成できることを実証した。
その結果, 事象をベースとした視覚は, 照明や動的条件下での安全性, 性能を向上させる上で有望な方向であることが示唆された。
関連論文リスト
- Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - Digital Twin-based Control Co-Design of Full Vehicle Active Suspensions via Deep Reinforcement Learning [8.45003507603975]
デジタルツイン(DT)とディープ強化学習(DRL)は、車両のライフサイクル全体にわたってリアルタイムでデータ駆動の最適化を行う新たな機会を提供する。
本研究は、フルサイクルアクティブサスペンションのためのDTベースの制御共設計(CCD)フレームワークを提案する。
我々は,様々な運転行動と環境不確実性の下で,物理的サスペンションコンポーネントと制御ポリシーを共同で最適化する。
論文 参考訳(メタデータ) (2025-12-03T15:41:35Z) - Ensemble-Based Event Camera Place Recognition Under Varying Illumination [15.33833908429706]
イベントカメラは高いダイナミックレンジと低レイテンシを提供し、高速な動きと挑戦的な照明条件に対する堅牢性を提供する。
本稿では,複数のイベント・ツー・フレーム再構成,VPR特徴抽出器,時間分解能のシーケンスマッチング結果を組み合わせたイベントカメラ位置認識のためのアンサンブルベースのアプローチを提案する。
時間分解能のみを利用する従来のイベントベースのアンサンブル法とは異なり、我々のより広範な融合戦略は、様々な照明条件下でのロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-02T05:17:07Z) - Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance [12.513296074529727]
本稿では,自律走行のためのリアルタイムエッジベース自律走行軌道プランナ(REACT)を提案する。
REACTは、微調整軽量ビジョンランゲージモデル(VLM)に基づくADのためのV2X統合軌道最適化フレームワークである。
DeepAccidentベンチマークで評価されたREACTは、最先端の性能、77%の衝突率の低減、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
論文 参考訳(メタデータ) (2025-08-01T20:16:04Z) - Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving [19.468567166834585]
リアルタイムの交通信号認識は、都市環境における自動運転の安全性とナビゲーションに不可欠である。
我々は、複数の連続するフレームを処理し、堅牢なトラフィック光検出と状態分類を実現する、ビデオベースの新しいエンドツーエンドニューラルネットワークであるtextitViTLRを提案する。
我々は、自走運転用HDマップを用いて、TextitViTLRをエゴレーン交通信号認識システムに統合することに成功している。
論文 参考訳(メタデータ) (2025-03-31T11:27:48Z) - Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and
Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。
提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文 参考訳(メタデータ) (2023-04-14T05:30:02Z) - RGB-Event Fusion for Moving Object Detection in Autonomous Driving [3.5397758597664306]
移動物体検出(MOD)は安全な自動運転を実現するための重要な視覚課題である。
センサ技術の最近の進歩、特にイベントカメラは、移動物体をより良くモデル化するための従来のカメラアプローチを自然に補完することができる。
我々は、より堅牢なMODを実現するために、2つの相補的モダリティを共同で活用する新しいRGB-Event fusion NetworkであるRENetを提案する。
論文 参考訳(メタデータ) (2022-09-17T12:59:08Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。