論文の概要: Learned Multimodal Compression for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2408.08211v1
- Date: Thu, 15 Aug 2024 15:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:36:33.501111
- Title: Learned Multimodal Compression for Autonomous Driving
- Title(参考訳): 自律運転のための学習型マルチモーダル圧縮
- Authors: Hadi Hadizadeh, Ivan V. Bajić,
- Abstract要約: 本研究では,3次元物体検出を対象とする自律走行のための学習されたマルチモーダル圧縮について検討する。
1つのアプローチは、融合したモダリティのジョイントコーディングであり、もう1つは、1つのモダリティを最初にコーディングし、もう1つのモダリティを条件付きコーディングする。
実験結果から,融解モダリティの結合符号化により,代替品よりも良好な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 4.14360329494344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving sensors generate an enormous amount of data. In this paper, we explore learned multimodal compression for autonomous driving, specifically targeted at 3D object detection. We focus on camera and LiDAR modalities and explore several coding approaches. One approach involves joint coding of fused modalities, while others involve coding one modality first, followed by conditional coding of the other modality. We evaluate the performance of these coding schemes on the nuScenes dataset. Our experimental results indicate that joint coding of fused modalities yields better results compared to the alternatives.
- Abstract(参考訳): 自律運転センサーは膨大な量のデータを生成する。
本稿では,3次元物体検出を対象とする自律走行のための学習されたマルチモーダル圧縮について検討する。
カメラとLiDARのモダリティに注目し、いくつかのコーディングアプローチを検討します。
1つのアプローチは、融合したモダリティのジョイントコーディングであり、もう1つは、1つのモダリティを最初にコーディングし、もう1つのモダリティを条件付きコーディングする。
nuScenesデータセット上でこれらの符号化方式の性能を評価する。
実験結果から,融解モダリティの結合符号化により,代替品よりも良好な結果が得られることが示された。
関連論文リスト
- UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Shared Cross-Modal Trajectory Prediction for Autonomous Driving [24.07872495811019]
本稿では,複数入力モダリティの利用のメリットを活かしたクロスモーダルな埋め込みフレームワークを提案する。
2つのベンチマーク駆動データセットを用いて,提案手法の有効性を示すため,広範囲な評価を行った。
論文 参考訳(メタデータ) (2020-11-15T07:18:50Z) - Shared Cross-Modal Trajectory Prediction for Autonomous Driving [24.07872495811019]
本稿では,複数入力モダリティの利用のメリットを活かしたクロスモーダルな埋め込みフレームワークを提案する。
2つのベンチマーク駆動データセットを用いて,提案手法の有効性を示すため,広範囲な評価を行った。
論文 参考訳(メタデータ) (2020-04-01T02:44:30Z) - FLIC: Fast Lidar Image Clustering [0.966840768820136]
本稿では,Lidarセンサデータのリアルタイム・インスタンス・セグメンテーションのためのアルゴリズム的アプローチを提案する。
本研究では, ユークリッド距離の特性を利用して3次元計測情報を保持する方法を示す。
これらの側面によって、単一のCPUコア上での最先端のパフォーマンスと実行が可能になります。
論文 参考訳(メタデータ) (2020-03-01T20:21:31Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。