論文の概要: AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking
- arxiv url: http://arxiv.org/abs/2409.17728v1
- Date: Thu, 26 Sep 2024 10:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 20:20:41.293685
- Title: AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking
- Title(参考訳): AlterMoma:カメラ-LiDAR融合モデルのための代替モダリティマスキングによる核融合冗長処理
- Authors: Shiqi Sun, Yantao Lu, Ning Liu, Bo Jiang, JinChao Chen, Ying Zhang,
- Abstract要約: カメラ-LiDAR融合モデルは自律走行における認識性能を著しく向上させる。
単一モードの事前訓練カメラとLiDARのバックボーンをカメラ-LiDAR融合モデルに直接ロードすることは、モダリティにまたがる同様の機能冗長性をもたらすと我々は主張する。
本稿では,各モードに代替マスキングを適用し,冗長パラメータを識別する,新規なモダリティ・マスキング・プルーニング・フレームワーク(AlterMOMA)を提案する。
- 参考スコア(独自算出の注目度): 13.288801778372546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-LiDAR fusion models significantly enhance perception performance in autonomous driving. The fusion mechanism leverages the strengths of each modality while minimizing their weaknesses. Moreover, in practice, camera-LiDAR fusion models utilize pre-trained backbones for efficient training. However, we argue that directly loading single-modal pre-trained camera and LiDAR backbones into camera-LiDAR fusion models introduces similar feature redundancy across modalities due to the nature of the fusion mechanism. Unfortunately, existing pruning methods are developed explicitly for single-modal models, and thus, they struggle to effectively identify these specific redundant parameters in camera-LiDAR fusion models. In this paper, to address the issue above on camera-LiDAR fusion models, we propose a novelty pruning framework Alternative Modality Masking Pruning (AlterMOMA), which employs alternative masking on each modality and identifies the redundant parameters. Specifically, when one modality parameters are masked (deactivated), the absence of features from the masked backbone compels the model to reactivate previous redundant features of the other modality backbone. Therefore, these redundant features and relevant redundant parameters can be identified via the reactivation process. The redundant parameters can be pruned by our proposed importance score evaluation function, Alternative Evaluation (AlterEva), which is based on the observation of the loss changes when certain modality parameters are activated and deactivated. Extensive experiments on the nuScene and KITTI datasets encompassing diverse tasks, baseline models, and pruning algorithms showcase that AlterMOMA outperforms existing pruning methods, attaining state-of-the-art performance.
- Abstract(参考訳): カメラ-LiDAR融合モデルは自律走行における認識性能を著しく向上させる。
融合機構は各モードの強度を活用し、弱点を最小限に抑える。
さらに、実際には、カメラ-LiDAR融合モデルは、訓練済みのバックボーンを効率的なトレーニングに利用している。
しかし, 単一モードカメラとLiDARバックボーンをカメラ-LiDAR融合モデルに直接ロードすると, 融合機構の性質から, 類似した特徴冗長性が生じるという議論がある。
残念ながら、既存のプルーニング法はシングルモーダルモデルに対して明示的に開発されており、カメラとLiDARの融合モデルにおいてこれらの特定の冗長パラメータを効果的に識別することは困難である。
本稿では,カメラ-LiDAR融合モデル上での課題に対処するため,各モードに代替マスキングを適用し,冗長パラメータを識別する,新規なモダリティマスキング・プルーニング・フレームワーク(AlterMOMA)を提案する。
特に、1つのモダリティパラメータがマスクされた(非活性化)とき、マスクされたバックボーンからの特徴がないことは、他のモダリティバックボーンの以前の冗長な特徴を再活性化するためにモデルを補完する。
したがって、これらの冗長な特徴と関連する冗長なパラメータは、再活性化プロセスを通じて識別することができる。
提案した重要度評価関数であるAlterEva(AlterEva)によって冗長なパラメータを抽出し,特定のパラメータが活性化・非活性化された場合の損失変化の観測に基づく。
さまざまなタスク、ベースラインモデル、プルーニングアルゴリズムを含むnuSceneとKITTIデータセットに関する大規模な実験では、AlterMOMAが既存のプルーニングメソッドより優れ、最先端のパフォーマンスを実現していることが示された。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Mitigating Parameter Degeneracy using Joint Conditional Diffusion Model for WECC Composite Load Model in Power Systems [2.7212274374272543]
連立条件拡散モデルに基づく逆問題解法(JCDI)を開発した。
JCDIは、パラメータの一般化性を改善するために、マルチイベント観測を同時に入力するジョイントコンディショニングアーキテクチャを組み込んでいる。
WECC CLMのシミュレーション研究により、提案したJCDIは縮退パラメータの不確かさを効果的に低減することを示した。
論文 参考訳(メタデータ) (2024-11-15T18:53:08Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Active-Learning-Driven Surrogate Modeling for Efficient Simulation of
Parametric Nonlinear Systems [0.0]
支配方程式がなければ、パラメトリック還元次代理モデルを非侵襲的に構築する必要がある。
我々の研究は、パラメータのスナップショットを効率的に表示するための非侵入的最適性基準を提供する。
カーネルベースの浅層ニューラルネットワークを用いた能動的学習駆動サロゲートモデルを提案する。
論文 参考訳(メタデータ) (2023-06-09T18:01:14Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。