論文の概要: FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network
- arxiv url: http://arxiv.org/abs/2407.16129v1
- Date: Tue, 23 Jul 2024 02:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:55:32.855104
- Title: FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network
- Title(参考訳): FoRA:マルチモーダル・シームズネットワークを越えた低ランク適応モデル
- Authors: Weiying Xie, Yusi Zhang, Tianlin Hui, Jiaqing Zhang, Jie Lei, Yunsong Li,
- Abstract要約: そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
- 参考スコア(独自算出の注目度): 19.466279425330857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal object detection offers a promising prospect to facilitate robust detection in various visual conditions. However, existing two-stream backbone networks are challenged by complex fusion and substantial parameter increments. This is primarily due to large data distribution biases of multimodal homogeneous information. In this paper, we propose a novel multimodal object detector, named Low-rank Modal Adaptors (LMA) with a shared backbone. The shared parameters enhance the consistency of homogeneous information, while lightweight modal adaptors focus on modality unique features. Furthermore, we design an adaptive rank allocation strategy to adapt to the varying heterogeneity at different feature levels. When applied to two multimodal object detection datasets, experiments validate the effectiveness of our method. Notably, on DroneVehicle, LMA attains a 10.4% accuracy improvement over the state-of-the-art method with a 149M-parameters reduction. The code is available at https://github.com/zyszxhy/FoRA. Our work was submitted to ACM MM in April 2024, but was rejected. We will continue to refine our work and paper writing next, mainly including proof of theory and multi-task applications of FoRA.
- Abstract(参考訳): マルチモーダル物体検出は、様々な視覚条件下で堅牢な検出を容易にするための有望な展望を提供する。
しかし、既存の2ストリームのバックボーンネットワークは、複雑な融合と実質的なパラメータの増大によって挑戦される。
これは主に多モード同種情報の大規模なデータ分布バイアスによるものである。
本稿では,LMA(Low-rank Modal Adaptors)と呼ばれる,共有バックボーンを有する新しいマルチモーダル物体検出器を提案する。
共有パラメータは均質情報の整合性を高め、軽量なモーダルアダプタはモダリティ固有の特徴に重点を置いている。
さらに,異なる特徴レベルの異質性に対応するために,適応的なランク割り当て戦略を設計する。
2つのマルチモーダル物体検出データセットに適用した場合,本手法の有効性を検証した。
特筆すべきは、DroneVehicleでは、LMAは最先端の手法よりも10.4%精度が向上し、149Mパラメータが削減されたことである。
コードはhttps://github.com/zyszxhy/FoRAで公開されている。
作業は2024年4月にACM MMに提出されたが拒否された。
今後,FoRAの理論実証やマルチタスクの応用など,研究と論文の執筆を続行していく。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Modal-Adaptive Gated Recoding Network for RGB-D Salient Object Detection [2.9153096940947796]
本稿では,2つのモードの情報の有効性を評価するために,GRNet(GRNet)を提案する。
知覚エンコーダを用いてマルチレベル単一モード特徴を抽出する。
無効な情報を抑制し、有効なモーダル特徴を復号ミキサとハイブリッド分岐復号器に転送するために、モーダル適応ゲートユニットを提案する。
論文 参考訳(メタデータ) (2021-08-13T15:08:21Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。