論文の概要: MCRL4OR: Multimodal Contrastive Representation Learning for Off-Road Environmental Perception
- arxiv url: http://arxiv.org/abs/2501.13988v1
- Date: Thu, 23 Jan 2025 08:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:57:38.562226
- Title: MCRL4OR: Multimodal Contrastive Representation Learning for Off-Road Environmental Perception
- Title(参考訳): MCRL4OR:オフロード環境認識のためのマルチモーダルコントラスト表現学習
- Authors: Yi Yang, Zhang Zhang, Liang Wang,
- Abstract要約: オフロード環境認識のためのマルチモーダルコントラスト表現学習手法 MCRL4OR を提案する。
このアプローチは、視覚画像、移動状態、制御動作を処理するための3つのエンコーダを共同で学習することを目的としている。
実験では、大規模なオフロード駆動データセットを用いてMCRL4ORを事前訓練し、オフロード駆動シナリオにおける様々な下流認識タスクに対する学習されたマルチモーダル表現を採用する。
- 参考スコア(独自算出の注目度): 28.394436093801797
- License:
- Abstract: Most studies on environmental perception for autonomous vehicles (AVs) focus on urban traffic environments, where the objects/stuff to be perceived are mainly from man-made scenes and scalable datasets with dense annotations can be used to train supervised learning models. By contrast, it is hard to densely annotate a large-scale off-road driving dataset manually due to the inherently unstructured nature of off-road environments. In this paper, we propose a Multimodal Contrastive Representation Learning approach for Off-Road environmental perception, namely MCRL4OR. This approach aims to jointly learn three encoders for processing visual images, locomotion states, and control actions by aligning the locomotion states with the fused features of visual images and control actions within a contrastive learning framework. The causation behind this alignment strategy is that the inertial locomotion state is the result of taking a certain control action under the current landform/terrain condition perceived by visual sensors. In experiments, we pre-train the MCRL4OR with a large-scale off-road driving dataset and adopt the learned multimodal representations for various downstream perception tasks in off-road driving scenarios. The superior performance in downstream tasks demonstrates the advantages of the pre-trained multimodal representations. The codes can be found in \url{https://github.com/1uciusy/MCRL4OR}.
- Abstract(参考訳): 自律走行車(AV)の環境認識に関するほとんどの研究は、都市交通環境に焦点をあてており、認識すべき物体や足場は、主に人為的なシーンからであり、密集したアノテーションによるスケーラブルなデータセットは、教師付き学習モデルのトレーニングに利用できる。
対照的に、オフロード環境の本質的に非構造性のため、大規模なオフロード駆動データセットを手動で注釈付けすることは困難である。
本稿では, オフロード環境認識のためのマルチモーダルコントラスト表現学習手法, MCRL4ORを提案する。
提案手法は,3つのエンコーダを共同で学習し,映像処理,移動状態,制御動作を,対照的な学習フレームワーク内での映像処理と制御動作の融合した特徴に整合させることを目的としている。
このアライメント戦略の背後にある因果関係は、慣性移動状態は、視覚センサによって知覚される現在の地形・地形条件下での一定の制御動作の結果である。
実験では、大規模なオフロード駆動データセットを用いてMCRL4ORを事前訓練し、オフロード駆動シナリオにおける様々な下流認識タスクに対する学習されたマルチモーダル表現を採用する。
下流タスクの優れた性能は、事前訓練されたマルチモーダル表現の利点を示している。
コードは \url{https://github.com/1uciusy/MCRL4OR} で見ることができる。
関連論文リスト
- DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments [60.69159598130235]
Vulnerable Road Users (VRU) の高表現による認識手法の評価を目的とした新しいデータセット DAVE を提案する。
DAVEは16種類のアクターカテゴリー(動物、人間、車など)と16種類のアクションタイプ(カットイン、ジグザグ運動、Uターンなど、複雑で稀なケース)を手動でアノテートしたデータセットである。
実験の結果,既存の手法はDAVEで評価すると性能の劣化に悩まされ,将来的なビデオ認識研究のメリットを浮き彫りにしていることがわかった。
論文 参考訳(メタデータ) (2024-12-28T06:13:44Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference [43.474068248379815]
本稿では,都市ナビゲーションに不可欠な複数のコンピュータビジョンタスクを訓練した共有エンコーダを提案する。
ポーズ推定のためのマルチスケール特徴ネットワークを導入し,深度学習を改善する。
その結果,多様な視覚的タスクを訓練した共有バックボーンは,全体的な知覚能力を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:54:03Z) - AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文 参考訳(メタデータ) (2023-07-26T03:12:05Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Learning to Walk by Steering: Perceptive Quadrupedal Locomotion in
Dynamic Environments [25.366480092589022]
四足歩行ロボットは、環境の乱雑さや移動する障害物に応答して、頑丈で機敏な歩行行動を示す必要がある。
本稿では,知覚的移動の問題をハイレベルな意思決定に分解する,PreLUDEという階層型学習フレームワークを提案する。
シミュレーションおよびハードウェア実験において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-09-19T17:55:07Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - Learning Vision-Guided Quadrupedal Locomotion End-to-End with
Cross-Modal Transformers [14.509254362627576]
強化学習(RL)を用いた四足歩行課題への取り組みを提案する。
四足歩行のためのエンドツーエンドRL法であるLocoTransformerを導入する。
論文 参考訳(メタデータ) (2021-07-08T17:41:55Z) - BoMuDANet: Unsupervised Adaptation for Visual Scene Understanding in
Unstructured Driving Environments [54.22535063244038]
非構造交通環境における視覚的シーン理解のための教師なし適応手法を提案する。
本手法は,車,トラック,二輪車,三輪車,歩行者からなる密集・異種交通を伴う非構造現実シナリオを対象としたものである。
論文 参考訳(メタデータ) (2020-09-22T08:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。