論文の概要: QADM-Net: Multi-Level Quality-Adaptive Dynamic Network for Reliable Multimodal Classification
- arxiv url: http://arxiv.org/abs/2412.14489v2
- Date: Thu, 30 Jan 2025 05:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:12:05.883265
- Title: QADM-Net: Multi-Level Quality-Adaptive Dynamic Network for Reliable Multimodal Classification
- Title(参考訳): QADM-Net:信頼性の高いマルチモーダル分類のためのマルチレベル品質適応型動的ネットワーク
- Authors: Shu Shen, Tong Zhang, C. L. Philip Chen,
- Abstract要約: 現在のマルチモーダル分類法では、信頼性の高い推論を実現するために、サンプル固有の深さとパラメータの動的ネットワークが欠如している。
マルチレベル品質適応型動的マルチモーダルネットワーク(QADM-Net)を提案する。
4つのデータセットで行った実験により、QADM-Netは分類性能と信頼性において最先端の手法を大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 57.08108545219043
- License:
- Abstract: Multimodal machine learning has achieved remarkable progress in many scenarios, but its reliability is undermined by varying sample quality. In this paper, we find that current multimodal classification methods lack dynamic networks for sample-specific depth and parameters to achieve reliable inference. To this end, a novel framework for multimodal reliable classification termed Multi-Level Quality-Adaptive Dynamic Multimodal Network (QADM-Net) is proposed. QADM-Net first adopts a novel approach based on noise-free prototypes and a classifier-free design to reliably estimate the quality of each sample at both modality and feature levels. It then achieves sample-specific network depth via the \textbf{\textit{Global Confidence Normalized Depth (GCND)}} mechanism. By normalizing depth across modalities and samples, \textit{\textbf{GCND}} effectively mitigates the impact of challenging modality inputs on dynamic depth reliability. Furthermore, QADM-Net provides sample-adaptive network parameters via the \textbf{\textit{Layer-wise Greedy Parameter (LGP)}} mechanism driven by feature-level quality. The cross-modality layer-wise greedy strategy in \textbf{\textit{LGP}} designs a reliable parameter prediction paradigm for multimodal networks with variable depths for the first time. Experiments conducted on four datasets demonstrate that QADM-Net significantly outperforms state-of-the-art methods in classification performance and reliability, exhibiting strong adaptability to data with diverse quality.
- Abstract(参考訳): マルチモーダル機械学習は多くのシナリオにおいて顕著な進歩を遂げているが、その信頼性は様々なサンプル品質によって損なわれている。
本稿では,既存のマルチモーダル分類法では,信頼性の高い推論を実現するために,標本固有深度とパラメータの動的ネットワークが欠如していることを見出した。
この目的のために,マルチレベル品質適応動的マルチモーダルネットワーク(QADM-Net)と呼ばれる,マルチモーダルな分類のための新しいフレームワークを提案する。
QADM-Netは、まず、ノイズのないプロトタイプと分類器のない設計に基づく新しいアプローチを採用し、各サンプルの品質をモダリティと特徴レベルの両方で確実に推定する。
次に、サンプル固有のネットワーク深さを \textbf{\textit{Global Confidence Normalized Depth (GCND)}} メカニズムで達成する。
モダリティとサンプルの深さを正規化することにより、挑戦的なモダリティ入力が動的深さの信頼性に与える影響を効果的に緩和する。
さらにQADM-Netは、機能レベルの品質によって駆動される \textbf{\textit{Layer-wise Greedy Parameter (LGP)}} メカニズムを介して、サンプル適応型ネットワークパラメータを提供する。
マルチモーダルネットワークに対するパラメータ予測のパラダイムを初めて設計した。
4つのデータセットで実施された実験により、QADM-Netは分類性能と信頼性において最先端の手法を著しく上回り、多様な品質を持つデータに強い適応性を示すことが示された。
関連論文リスト
- Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization [30.92656780805478]
細粒度視覚分類のための弱教師付き文脈意味品質認識ネットワーク(CSQA-Net)を提案する。
リッチな部分記述子とグローバルセマンティクスの空間的関係をモデル化するため,我々は新しい多部・多スケールクロスアテンション(MPMSCA)モジュールを開発した。
また、バックボーンネットワークの異なるレベルからの階層的セマンティクスを段階的に監視し、強化する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
論文 参考訳(メタデータ) (2024-03-15T13:40:44Z) - Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities [0.9217021281095907]
DAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
DAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示す。
本稿では,DAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factorを紹介する。
論文 参考訳(メタデータ) (2024-01-20T06:42:32Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Probabilistic MIMO U-Net: Efficient and Accurate Uncertainty Estimation
for Pixel-wise Regression [1.4528189330418977]
機械学習における不確実性推定は、予測モデルの信頼性と解釈可能性を高めるための最重要課題である。
画素ワイド回帰タスクに対するMIMO(Multiple-Input Multiple-Output)フレームワークの適応について述べる。
論文 参考訳(メタデータ) (2023-08-14T22:08:28Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - A Progressive Sub-Network Searching Framework for Dynamic Inference [33.93841415140311]
本稿では、トレーニング可能なノイズランキング、チャネルグループ、微調整しきい値設定、サブネット再選択など、いくつかの効果的な手法を組み込んだプログレッシブサブネット探索フレームワークを提案する。
提案手法は,従来普及していたUniversally-Slimmable-Networkの4.4%と平均2.3%と,モデルサイズが同じであるImageNetデータセットと比較して,より優れた動的推論精度を実現する。
論文 参考訳(メタデータ) (2020-09-11T22:56:02Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。