論文の概要: Deep Learning-Based Multi-Modal Fusion for Robust Robot Perception and Navigation
- arxiv url: http://arxiv.org/abs/2504.19002v1
- Date: Sat, 26 Apr 2025 19:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.083376
- Title: Deep Learning-Based Multi-Modal Fusion for Robust Robot Perception and Navigation
- Title(参考訳): 深層学習に基づくロバストロボットの知覚とナビゲーションのためのマルチモーダルフュージョン
- Authors: Delun Lai, Yeyubei Zhang, Yunchong Liu, Chaojie Li, Huadong Mo,
- Abstract要約: 本稿では,自律ナビゲーションロボットの知覚能力向上を目的とした,ディープラーニングに基づくマルチモーダル融合アーキテクチャを提案する。
革新的な特徴抽出モジュール、適応融合戦略、時系列モデリング機構を利用して、RGB画像とLiDARデータを効果的に統合する。
- 参考スコア(独自算出の注目度): 1.71849622776539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel deep learning-based multimodal fusion architecture aimed at enhancing the perception capabilities of autonomous navigation robots in complex environments. By utilizing innovative feature extraction modules, adaptive fusion strategies, and time-series modeling mechanisms, the system effectively integrates RGB images and LiDAR data. The key contributions of this work are as follows: a. the design of a lightweight feature extraction network to enhance feature representation; b. the development of an adaptive weighted cross-modal fusion strategy to improve system robustness; and c. the incorporation of time-series information modeling to boost dynamic scene perception accuracy. Experimental results on the KITTI dataset demonstrate that the proposed approach increases navigation and positioning accuracy by 3.5% and 2.2%, respectively, while maintaining real-time performance. This work provides a novel solution for autonomous robot navigation in complex environments.
- Abstract(参考訳): 本稿では,複雑な環境下での自律走行ロボットの知覚能力向上を目的とした,ディープラーニングに基づくマルチモーダル融合アーキテクチャを提案する。
革新的な特徴抽出モジュール、適応融合戦略、時系列モデリング機構を利用して、RGB画像とLiDARデータを効果的に統合する。
この作品の主な貢献は次の通りである。
a) 特徴表現を強化する軽量特徴抽出ネットワークの設計
ロ システムの堅牢性を改善するための適応重み付きクロスモーダル融合戦略の開発
c.動的シーン認識精度を高めるために時系列情報モデリングを取り入れること。
KITTIデータセットの実験結果から,提案手法は実時間性能を維持しつつ,航法精度を3.5%,位置決め精度を2.2%向上させることを示した。
この研究は、複雑な環境で自律的なロボットナビゲーションのための新しいソリューションを提供する。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Research on Autonomous Robots Navigation based on Reinforcement Learning [13.559881645869632]
我々は、経路計画と意思決定プロセスを最適化するために、Deep Q Network (DQN) と Proximal Policy Optimization (PPO) モデルを使用します。
様々な複雑なシナリオにおいて,これらのモデルの有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2024-07-02T00:44:06Z) - X Modality Assisting RGBT Object Tracking [1.730147049648545]
X Modality Assisting Network (X-Net)を導入し、視覚オブジェクト追跡を3つの異なるレベルに分離することで、融合パラダイムの影響を探る。
X-Netは、正確なレートと成功率の平均で0.47%/1.2%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - Enhancing Navigation Benchmarking and Perception Data Generation for
Row-based Crops in Simulation [0.3518016233072556]
本稿では,セマンティックセグメンテーションネットワークを学習するための合成データセットと,ナビゲーションアルゴリズムを高速に評価するための仮想シナリオのコレクションを提案する。
異なるフィールドジオメトリと特徴を探索するための自動パラメトリック手法が開発されている。
シミュレーションフレームワークとデータセットは、異なる作物のディープセグメンテーションネットワークをトレーニングし、その結果のナビゲーションをベンチマークすることで評価されている。
論文 参考訳(メタデータ) (2023-06-27T14:46:09Z) - PIC4rl-gym: a ROS2 modular framework for Robots Autonomous Navigation
with Deep Reinforcement Learning [0.4588028371034407]
この研究は、ナビゲーションと学習の研究を強化するための基本的なモジュラーフレームワークであるtextitPIC4rl-gymを導入している。
本稿では、DRLエージェントのトレーニングとテストを完全に統合したPIC4rl-gymの全体構造について述べる。
モジュラーアプローチは、新しいプラットフォーム、センサー、モデルを選択することで、シミュレーションを簡単にカスタマイズするために採用されている。
論文 参考訳(メタデータ) (2022-11-19T14:58:57Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。