論文の概要: Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation
- arxiv url: http://arxiv.org/abs/2401.16923v2
- Date: Thu, 11 Apr 2024 03:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 18:45:46.783916
- Title: Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation
- Title(参考訳): モダリティ不完全シーンセグメンテーションのためのフーリエプロンプトチューニング
- Authors: Ruiping Liu, Jiaming Zhang, Kunyu Peng, Yufan Chen, Ke Cao, Junwei Zheng, M. Saquib Sarfraz, Kailun Yang, Rainer Stiefelhagen,
- Abstract要約: Modality-Incomplete Scene (MISS)は、システムレベルのモダリティ不在とセンサーレベルのモダリティエラーの両方を含むタスクである。
我々は,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。
従来のパラメータ効率向上手法よりも5.84%mIoUが改良され,モダリティの欠如が認められた。
- 参考スコア(独自算出の注目度): 37.06795681738417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating information from multiple modalities enhances the robustness of scene perception systems in autonomous vehicles, providing a more comprehensive and reliable sensory framework. However, the modality incompleteness in multi-modal segmentation remains under-explored. In this work, we establish a task called Modality-Incomplete Scene Segmentation (MISS), which encompasses both system-level modality absence and sensor-level modality errors. To avoid the predominant modality reliance in multi-modal fusion, we introduce a Missing-aware Modal Switch (MMS) strategy to proactively manage missing modalities during training. Utilizing bit-level batch-wise sampling enhances the model's performance in both complete and incomplete testing scenarios. Furthermore, we introduce the Fourier Prompt Tuning (FPT) method to incorporate representative spectral information into a limited number of learnable prompts that maintain robustness against all MISS scenarios. Akin to fine-tuning effects but with fewer tunable parameters (1.1%). Extensive experiments prove the efficacy of our proposed approach, showcasing an improvement of 5.84% mIoU over the prior state-of-the-art parameter-efficient methods in modality missing. The source code is publicly available at https://github.com/RuipingL/MISS.
- Abstract(参考訳): 複数のモードから情報を統合することで、自動運転車におけるシーン認識システムの堅牢性が向上し、より包括的で信頼性の高い知覚フレームワークを提供する。
しかし、マルチモーダルセグメンテーションにおけるモダリティの不完全性はいまだ探索されていない。
本研究では,MISS(Modality-Incomplete Scene Segmentation)と呼ばれる,システムレベルのモダリティ不在とセンサレベルのモダリティエラーの両方を含むタスクを確立する。
マルチモーダル核融合における主要なモダリティ依存を回避するため,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。
ビットレベルのバッチワイドサンプリングを利用することで、完全なテストシナリオと不完全なテストシナリオの両方において、モデルのパフォーマンスが向上する。
さらに,全てのMISシナリオに対して堅牢性を維持するために,代表的なスペクトル情報を限られた数の学習可能なプロンプトに組み込むFourier Prompt Tuning(FPT)手法を導入する。
微調整効果に似ているが、調整可能なパラメータは少ない(1.1%)。
拡張実験により提案手法の有効性が証明され, 従来よりも5.84% mIoUの改善が見られた。
ソースコードはhttps://github.com/RuipingL/MISSで公開されている。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Visual Prompt Flexible-Modal Face Anti-Spoofing [23.58674017653937]
実世界から収集されたマルチモーダル顔データは 様々な画像センサーの モダリティが欠如しているため しばしば不完全です
本稿では, 凍結前基礎モデルを下流のフレキシブル・モダルFASタスクに適応させるために, モーダル関連プロンプトを学習するフレキシブル・モダルFASを提案する。
2つのマルチモーダルFASベンチマークデータセットで実施された実験は、我々のVP-FASフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-07-26T05:06:41Z) - Flexible-modal Deception Detection with Audio-Visual Adapter [20.6514221670249]
本稿では,2つのモーダルの時間的特徴を効率的に融合する新しい枠組みを提案する。
2つのベンチマークデータセットを用いて実験を行った結果,提案手法は優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-02-11T15:47:20Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。