Fugu-MT 論文翻訳(概要): Quantifying and Enhancing Multi-modal Robustness with Modality Preference

論文の概要: Quantifying and Enhancing Multi-modal Robustness with Modality Preference

arxiv url: http://arxiv.org/abs/2402.06244v1
Date: Fri, 9 Feb 2024 08:33:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 17:41:16.866646
Title: Quantifying and Enhancing Multi-modal Robustness with Modality Preference
Title（参考訳）: モダリティ選好によるマルチモーダルロバストネスの定量化と向上
Authors: Zequn Yang, Yake Wei, Ce Liang, Di Hu
Abstract要約: マルチモーダルモデルは、ユニモーダル攻撃や欠落状態のような広汎な摂動に対して脆弱である。より大きいユニモーダル表現マージンとより信頼性の高いモダリティの統合は、より高いロバスト性を達成するために必須の要素である。理論的な発見に触発されて,認証ロバストマルチモーダルトレーニング(Certible Robust Multi-modal Training)と呼ばれるトレーニング手順を導入する。
参考スコア（独自算出の注目度）: 10.233575823976564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal models have shown a promising capability to effectively integrate information from various sources, yet meanwhile, they are found vulnerable to pervasive perturbations, such as uni-modal attacks and missing conditions. To counter these perturbations, robust multi-modal representations are highly expected, which are positioned well away from the discriminative multi-modal decision boundary. In this paper, different from conventional empirical studies, we focus on a commonly used joint multi-modal framework and theoretically discover that larger uni-modal representation margins and more reliable integration for modalities are essential components for achieving higher robustness. This discovery can further explain the limitation of multi-modal robustness and the phenomenon that multi-modal models are often vulnerable to attacks on the specific modality. Moreover, our analysis reveals how the widespread issue, that the model has different preferences for modalities, limits the multi-modal robustness by influencing the essential components and could lead to attacks on the specific modality highly effective. Inspired by our theoretical finding, we introduce a training procedure called Certifiable Robust Multi-modal Training (CRMT), which can alleviate this influence from modality preference and explicitly regulate essential components to significantly improve robustness in a certifiable manner. Our method demonstrates substantial improvements in performance and robustness compared with existing methods. Furthermore, our training procedure can be easily extended to enhance other robust training strategies, highlighting its credibility and flexibility.
Abstract（参考訳）: マルチモーダルモデルは、様々なソースからの情報を効果的に統合する有望な能力を示しているが、一方、ユニモーダル攻撃や欠落状態のような広汎な摂動に対して脆弱である。これらの摂動に対抗するために、ロバストなマルチモーダル表現は非常に期待され、判別的マルチモーダル決定境界からかなり離れている。本稿では,従来の経験的研究と異なり,共通に使用されるマルチモーダル・フレームワークに焦点をあて,理論上,より大きなユニモーダル表現マージンとより信頼性の高いモダリティ統合が高堅牢性を達成する上で不可欠な要素であることを見出した。この発見は、マルチモーダルロバスト性の限界と、マルチモーダルモデルが特定のモダリティに対する攻撃に対して脆弱であることの現象をさらに説明できる。さらに,本研究では,モデルがモダリティの嗜好が異なること,本質的な構成要素に影響を与えることでマルチモーダルロバスト性を制限し,特定のモダリティに対する攻撃を効果的に行なえる可能性を明らかにする。理論的な発見から着想を得て,モダリティの嗜好からこの影響を緩和し,本質的な構成要素を明示的に規制し,認証方法の堅牢性を大幅に向上させる,Certifiable Robust Multi-modal Training (CRMT) と呼ばれるトレーニング手順を導入する。本手法は,既存手法と比較して性能と堅牢性を大幅に向上させる。さらに、トレーニング手順を簡単に拡張して、他の堅牢なトレーニング戦略を強化し、信頼性と柔軟性を強調します。

関連論文リスト

MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation [64.85885900375483]
MEXAは、エキスパートモデルのモダリティおよびタスク対応アグリゲーションを実行する、トレーニング不要のフレームワークである。我々は,ビデオ推論,オーディオ推論,3D理解,医用QAなど,多様なマルチモーダルベンチマークに対するアプローチを評価した。
論文参考訳（メタデータ） (2025-06-20T16:14:13Z)
Rethinking Explainability in the Era of Multimodal AI [9.57008593971486]
マルチモーダルAIシステムはユビキタスになり、ハイテイクなアプリケーションにまたがって優れたパフォーマンスを実現している。既存の説明可能性のテクニックの多くは単調のままであり、モダリティ固有の特徴属性、概念、回路トレースを分離して生成する。本稿では, マルチモーダルモデル決定を駆動するクロスモーダルな影響を, 体系的に誤表現し, 捉えることができないことを論じる。
論文参考訳（メタデータ） (2025-06-16T03:08:29Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T14:44:25Z)
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。 21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文参考訳（メタデータ） (2024-06-11T08:38:13Z)
Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文参考訳（メタデータ） (2024-05-28T13:27:30Z)
Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文参考訳（メタデータ） (2024-05-04T22:02:58Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。 QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-03T08:32:35Z)
Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文参考訳（メタデータ） (2023-06-02T04:29:57Z)
Analyzing Modality Robustness in Multimodal Sentiment Analysis [48.52878002917685]
堅牢なマルチモーダルモデルの構築は、荒野における信頼性の高いデプロイメントを実現する上で極めて重要です。訓練されたマルチモーダルモデルにおけるモダリティロバストネスの簡易診断チェックを提案する。問題を軽減するために、よく知られた堅牢なトレーニング戦略を分析します。
論文参考訳（メタデータ） (2022-05-30T23:30:16Z)
Understanding and Measuring Robustness of Multimodal Learning [14.257147031953211]
MUROANと呼ばれるフレームワークを用いて,マルチモーダル学習の対角的堅牢性を総合的に測定する。まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。次に,MUROANにおけるデカップリング攻撃(decoupling attack)と呼ばれる,マルチモーダルモデルの妥協を目的とした新しいタイプのマルチモーダル敵攻撃を導入する。
論文参考訳（メタデータ） (2021-12-22T21:10:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。