論文の概要: AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking
- arxiv url: http://arxiv.org/abs/2409.17728v1
- Date: Thu, 26 Sep 2024 10:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 20:20:41.293685
- Title: AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking
- Title(参考訳): AlterMoma:カメラ-LiDAR融合モデルのための代替モダリティマスキングによる核融合冗長処理
- Authors: Shiqi Sun, Yantao Lu, Ning Liu, Bo Jiang, JinChao Chen, Ying Zhang,
- Abstract要約: カメラ-LiDAR融合モデルは自律走行における認識性能を著しく向上させる。
単一モードの事前訓練カメラとLiDARのバックボーンをカメラ-LiDAR融合モデルに直接ロードすることは、モダリティにまたがる同様の機能冗長性をもたらすと我々は主張する。
本稿では,各モードに代替マスキングを適用し,冗長パラメータを識別する,新規なモダリティ・マスキング・プルーニング・フレームワーク(AlterMOMA)を提案する。
- 参考スコア(独自算出の注目度): 13.288801778372546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-LiDAR fusion models significantly enhance perception performance in autonomous driving. The fusion mechanism leverages the strengths of each modality while minimizing their weaknesses. Moreover, in practice, camera-LiDAR fusion models utilize pre-trained backbones for efficient training. However, we argue that directly loading single-modal pre-trained camera and LiDAR backbones into camera-LiDAR fusion models introduces similar feature redundancy across modalities due to the nature of the fusion mechanism. Unfortunately, existing pruning methods are developed explicitly for single-modal models, and thus, they struggle to effectively identify these specific redundant parameters in camera-LiDAR fusion models. In this paper, to address the issue above on camera-LiDAR fusion models, we propose a novelty pruning framework Alternative Modality Masking Pruning (AlterMOMA), which employs alternative masking on each modality and identifies the redundant parameters. Specifically, when one modality parameters are masked (deactivated), the absence of features from the masked backbone compels the model to reactivate previous redundant features of the other modality backbone. Therefore, these redundant features and relevant redundant parameters can be identified via the reactivation process. The redundant parameters can be pruned by our proposed importance score evaluation function, Alternative Evaluation (AlterEva), which is based on the observation of the loss changes when certain modality parameters are activated and deactivated. Extensive experiments on the nuScene and KITTI datasets encompassing diverse tasks, baseline models, and pruning algorithms showcase that AlterMOMA outperforms existing pruning methods, attaining state-of-the-art performance.
- Abstract(参考訳): カメラ-LiDAR融合モデルは自律走行における認識性能を著しく向上させる。
融合機構は各モードの強度を活用し、弱点を最小限に抑える。
さらに、実際には、カメラ-LiDAR融合モデルは、訓練済みのバックボーンを効率的なトレーニングに利用している。
しかし, 単一モードカメラとLiDARバックボーンをカメラ-LiDAR融合モデルに直接ロードすると, 融合機構の性質から, 類似した特徴冗長性が生じるという議論がある。
残念ながら、既存のプルーニング法はシングルモーダルモデルに対して明示的に開発されており、カメラとLiDARの融合モデルにおいてこれらの特定の冗長パラメータを効果的に識別することは困難である。
本稿では,カメラ-LiDAR融合モデル上での課題に対処するため,各モードに代替マスキングを適用し,冗長パラメータを識別する,新規なモダリティマスキング・プルーニング・フレームワーク(AlterMOMA)を提案する。
特に、1つのモダリティパラメータがマスクされた(非活性化)とき、マスクされたバックボーンからの特徴がないことは、他のモダリティバックボーンの以前の冗長な特徴を再活性化するためにモデルを補完する。
したがって、これらの冗長な特徴と関連する冗長なパラメータは、再活性化プロセスを通じて識別することができる。
提案した重要度評価関数であるAlterEva(AlterEva)によって冗長なパラメータを抽出し,特定のパラメータが活性化・非活性化された場合の損失変化の観測に基づく。
さまざまなタスク、ベースラインモデル、プルーニングアルゴリズムを含むnuSceneとKITTIデータセットに関する大規模な実験では、AlterMOMAが既存のプルーニングメソッドより優れ、最先端のパフォーマンスを実現していることが示された。
関連論文リスト
- LiCAF: LiDAR-Camera Asymmetric Fusion for Gait Recognition [1.585824200215491]
本稿では,LiDAR-camera 融合のための新しいモダリティ感受性ネットワーク LiCAF を提案する。
本稿では,非対称なクロスモーダルチャネル注意(ACCA)とインターラクト・クロスモーダル時間モデリング(ICTM)を提案する。
本手法は,SUSTech1Kデータセットの最先端性能(ランク1で93.9%,ランク5で98.8%)を達成する。
論文 参考訳(メタデータ) (2024-06-18T07:40:31Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
モデル構造では、二項化に最適化されたUNetアーキテクチャを設計する。
我々は,一貫した次元を維持するために,一貫した画素ダウンサンプル (CP-Down) と一貫したピクセルアップサンプル (CP-Up) を提案する。
BI-DiffSRが既存のバイナライゼーション法より優れていることを示す総合実験を行った。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Imaging Signal Recovery Using Neural Network Priors Under Uncertain Forward Model Parameters [0.7724713939814069]
逆イメージング問題(IIP)は様々な用途で発生し、圧縮された測定値から画像の再構成が主な目的である。
本稿では,ニューラルネットワークを前に使用することで,一般的なIPソリューションと互換性のある新しいモーメント・アグリゲーション(MA)フレームワークを提案する。
理論的には、既知のフォワードモデルパラメータの下での再構成に類似した複雑さを持つMAフレームワークの収束を実証する。
論文 参考訳(メタデータ) (2024-05-05T14:12:48Z) - Distilling Semantic Priors from SAM to Efficient Image Restoration Models [80.83077145948863]
画像復元(IR)では、セグメンテーションモデルからセグメンテーションの事前情報を活用することが、性能向上のための一般的なアプローチである。
近年のセグメンテーション・アズ・モデル (SAM) は、IRタスクを強化するために先進的なセグメンテーション先行を抽出する強力なツールとして登場した。
本稿では,SAMのセマンティック知識を抽出し,推論プロセスに干渉することなく,IRモデルからの撤退を促進するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-25T02:17:20Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Active-Learning-Driven Surrogate Modeling for Efficient Simulation of
Parametric Nonlinear Systems [0.0]
支配方程式がなければ、パラメトリック還元次代理モデルを非侵襲的に構築する必要がある。
我々の研究は、パラメータのスナップショットを効率的に表示するための非侵入的最適性基準を提供する。
カーネルベースの浅層ニューラルネットワークを用いた能動的学習駆動サロゲートモデルを提案する。
論文 参考訳(メタデータ) (2023-06-09T18:01:14Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。