Fugu-MT 論文翻訳(概要): AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking

論文の概要: AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking

arxiv url: http://arxiv.org/abs/2409.17728v1
Date: Thu, 26 Sep 2024 10:57:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-28 20:20:41.293685
Title: AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking
Title（参考訳）: AlterMoma:カメラ-LiDAR融合モデルのための代替モダリティマスキングによる核融合冗長処理
Authors: Shiqi Sun, Yantao Lu, Ning Liu, Bo Jiang, JinChao Chen, Ying Zhang,
Abstract要約: カメラ-LiDAR融合モデルは自律走行における認識性能を著しく向上させる。単一モードの事前訓練カメラとLiDARのバックボーンをカメラ-LiDAR融合モデルに直接ロードすることは、モダリティにまたがる同様の機能冗長性をもたらすと我々は主張する。本稿では,各モードに代替マスキングを適用し,冗長パラメータを識別する,新規なモダリティ・マスキング・プルーニング・フレームワーク(AlterMOMA)を提案する。
参考スコア（独自算出の注目度）: 13.288801778372546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Camera-LiDAR fusion models significantly enhance perception performance in autonomous driving. The fusion mechanism leverages the strengths of each modality while minimizing their weaknesses. Moreover, in practice, camera-LiDAR fusion models utilize pre-trained backbones for efficient training. However, we argue that directly loading single-modal pre-trained camera and LiDAR backbones into camera-LiDAR fusion models introduces similar feature redundancy across modalities due to the nature of the fusion mechanism. Unfortunately, existing pruning methods are developed explicitly for single-modal models, and thus, they struggle to effectively identify these specific redundant parameters in camera-LiDAR fusion models. In this paper, to address the issue above on camera-LiDAR fusion models, we propose a novelty pruning framework Alternative Modality Masking Pruning (AlterMOMA), which employs alternative masking on each modality and identifies the redundant parameters. Specifically, when one modality parameters are masked (deactivated), the absence of features from the masked backbone compels the model to reactivate previous redundant features of the other modality backbone. Therefore, these redundant features and relevant redundant parameters can be identified via the reactivation process. The redundant parameters can be pruned by our proposed importance score evaluation function, Alternative Evaluation (AlterEva), which is based on the observation of the loss changes when certain modality parameters are activated and deactivated. Extensive experiments on the nuScene and KITTI datasets encompassing diverse tasks, baseline models, and pruning algorithms showcase that AlterMOMA outperforms existing pruning methods, attaining state-of-the-art performance.
Abstract（参考訳）: カメラ-LiDAR融合モデルは自律走行における認識性能を著しく向上させる。融合機構は各モードの強度を活用し、弱点を最小限に抑える。さらに、実際には、カメラ-LiDAR融合モデルは、訓練済みのバックボーンを効率的なトレーニングに利用している。しかし, 単一モードカメラとLiDARバックボーンをカメラ-LiDAR融合モデルに直接ロードすると, 融合機構の性質から, 類似した特徴冗長性が生じるという議論がある。残念ながら、既存のプルーニング法はシングルモーダルモデルに対して明示的に開発されており、カメラとLiDARの融合モデルにおいてこれらの特定の冗長パラメータを効果的に識別することは困難である。本稿では,カメラ-LiDAR融合モデル上での課題に対処するため,各モードに代替マスキングを適用し,冗長パラメータを識別する,新規なモダリティマスキング・プルーニング・フレームワーク(AlterMOMA)を提案する。特に、1つのモダリティパラメータがマスクされた(非活性化)とき、マスクされたバックボーンからの特徴がないことは、他のモダリティバックボーンの以前の冗長な特徴を再活性化するためにモデルを補完する。したがって、これらの冗長な特徴と関連する冗長なパラメータは、再活性化プロセスを通じて識別することができる。提案した重要度評価関数であるAlterEva(AlterEva)によって冗長なパラメータを抽出し,特定のパラメータが活性化・非活性化された場合の損失変化の観測に基づく。さまざまなタスク、ベースラインモデル、プルーニングアルゴリズムを含むnuSceneとKITTIデータセットに関する大規模な実験では、AlterMOMAが既存のプルーニングメソッドより優れ、最先端のパフォーマンスを実現していることが示された。

関連論文リスト

Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration [22.746234919635018]
多状態視点を用いた統一受容重み付き鍵値(URWKV)モデルを提案する。 URWKVブロックのコアをカスタマイズし、複数のステージ内およびステージ間状態を利用して複雑な劣化を認識・解析する。最先端モデルと比較して、URWKVモデルは様々なベンチマークにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2025-05-29T04:17:09Z)
FusionSegReID: Advancing Person Re-Identification with Multimodal Retrieval and Precise Segmentation [42.980289787679084]
人物再識別(ReID)は、セキュリティ監視や犯罪捜査などのアプリケーションにおいて、重複しないカメラによってキャプチャされた大きな画像ギャラリーの個人をマッチングすることで、重要な役割を果たす。従来のReIDの手法は、通常画像のような単調な入力に依存するが、オクルージョン、照明の変更、バリエーションのポーズといった課題のために、制限に直面している。本稿では,画像入力とテキスト入力を組み合わせたマルチモーダルモデルFusionSegReIDを提案する。
論文参考訳（メタデータ） (2025-03-27T15:14:03Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Optimal Brain Iterative Merging: Mitigating Interference in LLM Merging [11.708743111945727]
大きな言語モデル(LLM)は印象的な能力を示しているが、その高い計算コストはカスタマイズに困難をもたらす。モデルマージはコスト効率の良い代替手段を提供するが、既存のメソッドはパラメータ間の干渉に悩まされ、パフォーマンスが低下する。本稿では,モデル内干渉とモデル間干渉を緩和する新しい手法である,最適脳反復法を提案する。
論文参考訳（メタデータ） (2025-02-17T09:07:49Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
Rethinking Model Redundancy for Low-light Image Enhancement [21.864075752556452]
低照度画像強調(LLIE)は、照明の改善、ノイズ低減、低照度画像の画質向上を目的とした、計算写真の基本的な課題である。最近の進歩は、主に複雑なニューラルネットワークモデルのカスタマイズに焦点が当てられているが、これらのモデルには大きな冗長性があり、さらなる性能改善が制限されている。この再考に触発されて,LLIE性能を改善しながらモデル冗長性を緩和する2つの革新的な手法を提案する。
論文参考訳（メタデータ） (2024-12-21T03:17:28Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
Mitigating Parameter Degeneracy using Joint Conditional Diffusion Model for WECC Composite Load Model in Power Systems [2.7212274374272543]
連立条件拡散モデルに基づく逆問題解法(JCDI)を開発した。 JCDIは、パラメータの一般化性を改善するために、マルチイベント観測を同時に入力するジョイントコンディショニングアーキテクチャを組み込んでいる。 WECC CLMのシミュレーション研究により、提案したJCDIは縮退パラメータの不確かさを効果的に低減することを示した。
論文参考訳（メタデータ） (2024-11-15T18:53:08Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文参考訳（メタデータ） (2024-03-18T07:41:39Z)
RBSR: Efficient and Flexible Recurrent Network for Burst Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文参考訳（メタデータ） (2023-06-30T12:14:13Z)
Active-Learning-Driven Surrogate Modeling for Efficient Simulation of Parametric Nonlinear Systems [0.0]
支配方程式がなければ、パラメトリック還元次代理モデルを非侵襲的に構築する必要がある。我々の研究は、パラメータのスナップショットを効率的に表示するための非侵入的最適性基準を提供する。カーネルベースの浅層ニューラルネットワークを用いた能動的学習駆動サロゲートモデルを提案する。
論文参考訳（メタデータ） (2023-06-09T18:01:14Z)
Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文参考訳（メタデータ） (2023-05-19T05:50:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。