論文の概要: Learning Content-Aware Multi-Modal Joint Input Pruning via Bird's-Eye-View Representation
- arxiv url: http://arxiv.org/abs/2410.07268v1
- Date: Wed, 9 Oct 2024 03:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:16:58.587089
- Title: Learning Content-Aware Multi-Modal Joint Input Pruning via Bird's-Eye-View Representation
- Title(参考訳): 鳥のEye-View表現による多モード共同入力プルーニングの学習
- Authors: Yuxin Li, Yiheng Li, Xulei Yang, Mengying Yu, Zihang Huang, Xiaojun Wu, Chai Kiat Yeo,
- Abstract要約: 本稿では,コンテンツ対応型マルチモーダルジョイントプルーニング手法を提案する。
我々は,NuScenesデータセットの広範な実験を通じて,アプローチの有効性を検証する。
- 参考スコア(独自算出の注目度): 11.074747442071729
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the landscape of autonomous driving, Bird's-Eye-View (BEV) representation has recently garnered substantial academic attention, serving as a transformative framework for the fusion of multi-modal sensor inputs. This BEV paradigm effectively shifts the sensor fusion challenge from a rule-based methodology to a data-centric approach, thereby facilitating more nuanced feature extraction from an array of heterogeneous sensors. Notwithstanding its evident merits, the computational overhead associated with BEV-based techniques often mandates high-capacity hardware infrastructures, thus posing challenges for practical, real-world implementations. To mitigate this limitation, we introduce a novel content-aware multi-modal joint input pruning technique. Our method leverages BEV as a shared anchor to algorithmically identify and eliminate non-essential sensor regions prior to their introduction into the perception model's backbone. We validatethe efficacy of our approach through extensive experiments on the NuScenes dataset, demonstrating substantial computational efficiency without sacrificing perception accuracy. To the best of our knowledge, this work represents the first attempt to alleviate the computational burden from the input pruning point.
- Abstract(参考訳): 自律運転の分野では、Bird's-Eye-View (BEV) の表現は、最近学術的な注目を集め、マルチモーダルセンサー入力の融合のための変換フレームワークとして機能している。
このBEVパラダイムは、センサ融合の課題をルールベースの方法論からデータ中心のアプローチに効果的にシフトすることで、異種センサの配列からよりニュアンスな特徴抽出を容易にする。
その明らかな利点にもかかわらず、BEVベースの技術に関連する計算オーバーヘッドは、しばしば高容量のハードウェアインフラを義務付け、現実の現実的な実装に挑戦する。
この制限を緩和するために,コンテンツ対応型マルチモーダル入力プルーニング技術を導入する。
本手法は,BEVを共有アンカーとして活用し,知覚モデルのバックボーン導入前の非意味センサ領域をアルゴリズム的に同定・除去する。
提案手法の有効性をNuScenesデータセットの広範な実験により検証し,認識精度を犠牲にすることなく計算効率を著しく向上することを示した。
我々の知る限り、この研究は入力プルーニング点からの計算負担を軽減する最初の試みである。
関連論文リスト
- BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。
ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文 参考訳(メタデータ) (2024-10-28T12:40:27Z) - QuadBEV: An Efficient Quadruple-Task Perception Framework via Bird's-Eye-View Representation [11.074747442071729]
Bird's-Eye-View (BEV) の知覚は、複数のセンサー入力を統一された表現に統合する能力により、自律運転システムにおいて重要な要素となっている。
提案するQuadBEVは,4つのタスク間で共有された空間的・文脈的情報を活用する,効率的なマルチタスク認識フレームワークである。
本研究は,QuadBEVの有効性とロバスト性を検証し,実世界の応用に適合することを示す包括的実験である。
論文 参考訳(メタデータ) (2024-10-09T03:31:45Z) - Hierarchical End-to-End Autonomous Driving: Integrating BEV Perception with Deep Reinforcement Learning [23.21761407287525]
エンドツーエンドの自動運転は、従来のモジュラーパイプラインに代わる合理化された代替手段を提供する。
深層強化学習(Dep Reinforcement Learning, DRL)は、最近この分野で注目を集めている。
DRL特徴抽出ネットワークを認識フェーズに直接マッピングすることで、このギャップを埋める。
論文 参考訳(メタデータ) (2024-09-26T09:14:16Z) - Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリの提供を目的とした,新しい階層的BEV知覚パラダイムを提案する。
我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。
また、マルチモジュールラーニング(MML)アプローチを提案し、複数のモデルの相乗的かつ反復的な訓練により性能を向上させる。
論文 参考訳(メタデータ) (2024-07-17T11:17:20Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Cross-modal Knowledge Distillation for Vision-to-Sensor Action
Recognition [12.682984063354748]
本研究では、VSKDフレームワークをエンドツーエンドで導入する。
このVSKDフレームワークでは、テストフェーズ中にウェアラブルデバイスから必要となるのは時系列データ(加速度計データ)のみである。
このフレームワークは、エッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチのパフォーマンスと密に一致した学習モデルも生成する。
論文 参考訳(メタデータ) (2021-10-08T15:06:38Z) - Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets
Deep Reinforcement Learning [76.46530937296066]
本稿では,無線モバイルユーザに対して,超信頼性でエネルギー効率のよいバーチャルリアリティ(VR)体験を提供するという課題について検討する。
モバイルユーザへの信頼性の高い超高精細ビデオフレーム配信を実現するために,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。
論文 参考訳(メタデータ) (2021-06-03T08:35:10Z) - Learning Multiplicative Interactions with Bayesian Neural Networks for
Visual-Inertial Odometry [44.209301916028124]
本稿では,視覚慣性オドメトリー(VIO)のためのエンドツーエンドマルチモーダル学習手法を提案する。
センサ劣化シナリオに照らして、センサの相補性を利用するように設計されている。
論文 参考訳(メタデータ) (2020-07-15T11:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。