Fugu-MT 論文翻訳(概要): Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation

論文の概要: Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation

arxiv url: http://arxiv.org/abs/2401.16923v1
Date: Tue, 30 Jan 2024 11:46:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 15:20:26.318663
Title: Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation
Title（参考訳）: モダリティ不完全シーンセグメンテーションのためのフーリエプロンプトチューニング
Authors: Ruiping Liu, Jiaming Zhang, Kunyu Peng, Yufan Chen, Ke Cao, Junwei Zheng, M. Saquib Sarfraz, Kailun Yang, Rainer Stiefelhagen
Abstract要約: Modality-Incomplete Scene (MISS) というタスクを確立する。 MISSはシステムレベルのモダリティ不在とセンサーレベルのモダリティエラーの両方を含んでいる。我々は,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。
参考スコア（独自算出の注目度）: 38.46193005513166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Integrating information from multiple modalities enhances the robustness of scene perception systems in autonomous vehicles, providing a more comprehensive and reliable sensory framework. However, the modality incompleteness in multi-modal segmentation remains under-explored. In this work, we establish a task called Modality-Incomplete Scene Segmentation (MISS), which encompasses both system-level modality absence and sensor-level modality errors. To avoid the predominant modality reliance in multi-modal fusion, we introduce a Missing-aware Modal Switch (MMS) strategy to proactively manage missing modalities during training. Utilizing bit-level batch-wise sampling enhances the model's performance in both complete and incomplete testing scenarios. Furthermore, we introduce the Fourier Prompt Tuning (FPT) method to incorporate representative spectral information into a limited number of learnable prompts that maintain robustness against all MISS scenarios. Akin to fine-tuning effects but with fewer tunable parameters (1.1%). Extensive experiments prove the efficacy of our proposed approach, showcasing an improvement of 5.84% mIoU over the prior state-of-the-art parameter-efficient methods in modality missing. The source code will be publicly available at https://github.com/RuipingL/MISS.
Abstract（参考訳）: 複数のモードからの情報を統合することで、自動運転車におけるシーン認識システムの堅牢性が向上し、より包括的で信頼性の高い感覚フレームワークを提供する。しかし、マルチモーダルセグメンテーションにおけるモダリティの不完全性は未検討のままである。本研究では,MISS(Modality-Incomplete Scene Segmentation)と呼ばれる,システムレベルのモダリティ不在とセンサレベルのモダリティエラーの両方を含むタスクを確立する。マルチモーダル核融合における主要なモダリティ依存を回避するため,MMS(Missing-Aware Modal Switch)戦略を導入する。ビットレベルのバッチワイズサンプリングを利用することで、完全なテストシナリオと不完全なテストシナリオの両方において、モデルのパフォーマンスが向上する。さらに,全てのMISシナリオに対して堅牢性を維持するために,代表的なスペクトル情報を限られた数の学習可能なプロンプトに組み込むFourier Prompt Tuning(FPT)手法を導入する。微調整効果に似ているが、調整可能なパラメータは少ない(1.1%)。拡張実験により提案手法の有効性が証明され, 従来よりも5.84% mIoUの改善が見られた。ソースコードはhttps://github.com/RuipingL/MISSで公開されている。

関連論文リスト

Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。 1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文参考訳（メタデータ） (2025-05-10T12:58:15Z)
Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。 Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-24T08:46:52Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。 4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文参考訳（メタデータ） (2024-07-16T03:34:38Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文参考訳（メタデータ） (2024-01-21T11:55:42Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Visual Prompt Flexible-Modal Face Anti-Spoofing [23.58674017653937]
実世界から収集されたマルチモーダル顔データは様々な画像センサーのモダリティが欠如しているためしばしば不完全です本稿では, 凍結前基礎モデルを下流のフレキシブル・モダルFASタスクに適応させるために, モーダル関連プロンプトを学習するフレキシブル・モダルFASを提案する。 2つのマルチモーダルFASベンチマークデータセットで実施された実験は、我々のVP-FASフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2023-07-26T05:06:41Z)
Flexible-modal Deception Detection with Audio-Visual Adapter [20.6514221670249]
本稿では,2つのモーダルの時間的特徴を効率的に融合する新しい枠組みを提案する。 2つのベンチマークデータセットを用いて実験を行った結果,提案手法は優れた性能が得られることが示された。
論文参考訳（メタデータ） (2023-02-11T15:47:20Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。