論文の概要: Depth Matters: Multimodal RGB-D Perception for Robust Autonomous Agents
- arxiv url: http://arxiv.org/abs/2503.16711v1
- Date: Thu, 20 Mar 2025 21:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:34.028427
- Title: Depth Matters: Multimodal RGB-D Perception for Robust Autonomous Agents
- Title(参考訳): 深度:ロバストな自律エージェントに対するマルチモーダルRGB-D知覚
- Authors: Mihaela-Larisa Clement, Mónika Farsang, Felix Resch, Radu Grosu,
- Abstract要約: 本研究では,深度情報によるRGB入力の増大がエージェントの操舵コマンドの予測能力を大幅に向上させることを示す。
我々は,RGB-Dの融合機能を利用して逐次意思決定を行う軽量リカレントコントローラのベンチマークを行った。
以上の結果から,早期に深度データを融合させることで,フレームドロップやノイズレベルが増大しても,極めて堅牢な制御が可能であることが判明した。
- 参考スコア(独自算出の注目度): 6.302177333213775
- License:
- Abstract: Autonomous agents that rely purely on perception to make real-time control decisions require efficient and robust architectures. In this work, we demonstrate that augmenting RGB input with depth information significantly enhances our agents' ability to predict steering commands compared to using RGB alone. We benchmark lightweight recurrent controllers that leverage the fused RGB-D features for sequential decision-making. To train our models, we collect high-quality data using a small-scale autonomous car controlled by an expert driver via a physical steering wheel, capturing varying levels of steering difficulty. Our models, trained under diverse configurations, were successfully deployed on real hardware. Specifically, our findings reveal that the early fusion of depth data results in a highly robust controller, which remains effective even with frame drops and increased noise levels, without compromising the network's focus on the task.
- Abstract(参考訳): リアルタイム制御決定を行うために純粋に知覚に依存する自律エージェントは、効率的で堅牢なアーキテクチャを必要とする。
本研究では、深度情報によるRGB入力の増大が、RGB単独の使用と比較して、エージェントの操舵コマンド予測能力を大幅に向上させることを実証する。
我々は,RGB-Dの融合機能を利用して逐次意思決定を行う軽量リカレントコントローラのベンチマークを行った。
モデルをトレーニングするために、専門のドライバーが制御する小型の自律走行車を用いて、物理的ステアリングホイールを使用して高品質なデータを収集し、さまざまなレベルのステアリング困難を捉える。
さまざまな構成でトレーニングされた当社のモデルは,実際のハードウェア上でのデプロイに成功しました。
具体的には,早期の深度データの融合により,ネットワークのタスクへの注力を損なうことなく,フレームドロップやノイズレベルが向上した場合でも,極めて堅牢なコントローラが実現されることが判明した。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Depth Attention for Robust RGB Tracking [21.897255266278275]
本稿では,RGBビデオシーケンスにおける動きのぼかしの影響や視界外なターゲット追跡の課題に対処するために,単眼深度推定を利用した新しいフレームワークを提案する。
我々の知識を最大限に活用するために、我々は最初に深度注意機構を提案し、深度情報と美術追跡アルゴリズムの状態をシームレスに統合するシンプルなフレームワークを定式化した。
論文 参考訳(メタデータ) (2024-10-27T09:47:47Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - DeepIPCv2: LiDAR-powered Robust Environmental Perception and Navigational Control for Autonomous Vehicle [7.642646077340124]
DeepIPCv2は、より堅牢な乾燥性のためにLiDARセンサーを使用して環境を知覚する自律運転モデルである。
DeepIPCv2は、LiDAR点雲の集合を主知覚入力とする。
論文 参考訳(メタデータ) (2023-07-13T09:23:21Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Pseudo-LiDAR Based Road Detection [5.9106199000537645]
推論時にのみRGBが入力となる新しい道路検出手法を提案する。
深度推定を用いた擬似LiDARを利用して,RGBと学習深度情報を融合した特徴融合ネットワークを提案する。
提案手法は, KITTI と R2D の2つのベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-28T11:21:42Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。