Fugu-MT 論文翻訳(概要): FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network

論文の概要: FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network

arxiv url: http://arxiv.org/abs/2407.16129v1
Date: Tue, 23 Jul 2024 02:27:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 18:55:32.855104
Title: FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network
Title（参考訳）: FoRA:マルチモーダル・シームズネットワークを越えた低ランク適応モデル
Authors: Weiying Xie, Yusi Zhang, Tianlin Hui, Jiaqing Zhang, Jie Lei, Yunsong Li,
Abstract要約: そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。作業は2024年4月にACM MMに提出されたが拒否された。
参考スコア（独自算出の注目度）: 19.466279425330857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal object detection offers a promising prospect to facilitate robust detection in various visual conditions. However, existing two-stream backbone networks are challenged by complex fusion and substantial parameter increments. This is primarily due to large data distribution biases of multimodal homogeneous information. In this paper, we propose a novel multimodal object detector, named Low-rank Modal Adaptors (LMA) with a shared backbone. The shared parameters enhance the consistency of homogeneous information, while lightweight modal adaptors focus on modality unique features. Furthermore, we design an adaptive rank allocation strategy to adapt to the varying heterogeneity at different feature levels. When applied to two multimodal object detection datasets, experiments validate the effectiveness of our method. Notably, on DroneVehicle, LMA attains a 10.4% accuracy improvement over the state-of-the-art method with a 149M-parameters reduction. The code is available at https://github.com/zyszxhy/FoRA. Our work was submitted to ACM MM in April 2024, but was rejected. We will continue to refine our work and paper writing next, mainly including proof of theory and multi-task applications of FoRA.
Abstract（参考訳）: マルチモーダル物体検出は、様々な視覚条件下で堅牢な検出を容易にするための有望な展望を提供する。しかし、既存の2ストリームのバックボーンネットワークは、複雑な融合と実質的なパラメータの増大によって挑戦される。これは主に多モード同種情報の大規模なデータ分布バイアスによるものである。本稿では,LMA(Low-rank Modal Adaptors)と呼ばれる,共有バックボーンを有する新しいマルチモーダル物体検出器を提案する。共有パラメータは均質情報の整合性を高め、軽量なモーダルアダプタはモダリティ固有の特徴に重点を置いている。さらに,異なる特徴レベルの異質性に対応するために,適応的なランク割り当て戦略を設計する。 2つのマルチモーダル物体検出データセットに適用した場合,本手法の有効性を検証した。特筆すべきは、DroneVehicleでは、LMAは最先端の手法よりも10.4%精度が向上し、149Mパラメータが削減されたことである。コードはhttps://github.com/zyszxhy/FoRAで公開されている。作業は2024年4月にACM MMに提出されたが拒否された。今後,FoRAの理論実証やマルチタスクの応用など,研究と論文の執筆を続行していく。

関連論文リスト

FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
MokA: Multimodal Low-Rank Adaptation for MLLMs [11.440424554587674]
マルチモーダル低ランク適応(MokA)は、マルチモーダル対応の効率的な微調整戦略である。 MokAは、モダリティ固有のパラメータによって一様情報を圧縮し、クロスモーダル相互作用を明示的に強化する。
論文参考訳（メタデータ） (2025-06-05T16:04:08Z)
Multi-QuAD: Multi-Level Quality-Adaptive Dynamic Network for Reliable Multimodal Classification [57.08108545219043]
既存の信頼性の高いマルチモーダル分類手法では、データ品質のロバストな推定ができない。 textitMulti-level Quality-Adaptive Dynamic multimodal network (Multi-QuAD) と呼ばれる信頼性の高い分類のための新しいフレームワークを提案する。 4つのデータセットで行った実験により、Multi-QuADは分類性能と信頼性において最先端の手法を大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-12-19T03:26:51Z)
MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文参考訳（メタデータ） (2024-12-14T06:33:53Z)
RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文参考訳（メタデータ） (2024-10-02T16:47:55Z)
AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文参考訳（メタデータ） (2024-05-21T17:17:17Z)
Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文参考訳（メタデータ） (2024-04-25T07:21:14Z)
Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文参考訳（メタデータ） (2023-12-17T05:27:31Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文参考訳（メタデータ） (2022-04-21T02:35:23Z)
Modal-Adaptive Gated Recoding Network for RGB-D Salient Object Detection [2.9153096940947796]
本稿では,2つのモードの情報の有効性を評価するために,GRNet(GRNet)を提案する。知覚エンコーダを用いてマルチレベル単一モード特徴を抽出する。無効な情報を抑制し、有効なモーダル特徴を復号ミキサとハイブリッド分岐復号器に転送するために、モーダル適応ゲートユニットを提案する。
論文参考訳（メタデータ） (2021-08-13T15:08:21Z)
MRDet: A Multi-Head Network for Accurate Oriented Object Detection in Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文参考訳（メタデータ） (2020-12-24T06:36:48Z)
Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文参考訳（メタデータ） (2020-12-23T15:23:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。