論文の概要: Rethinking Multimodal Learning from the Perspective of Mitigating Classification Ability Disproportion
- arxiv url: http://arxiv.org/abs/2502.20120v1
- Date: Thu, 27 Feb 2025 14:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:21.703301
- Title: Rethinking Multimodal Learning from the Perspective of Mitigating Classification Ability Disproportion
- Title(参考訳): 分類能力格差の緩和の観点からのマルチモーダル学習の再考
- Authors: QingYuan Jiang, Longfei Huang, Yang Yang,
- Abstract要約: モダリティの不均衡の存在は、実際には単調モデルよりも期待される優越性を達成できないマルチモーダル学習を妨げている。
持続的なブースティングアルゴリズムを設計することにより、弱いモダリティと強いモダリティの分類能力のバランスをとるために、新しいマルチモーダル学習手法を提案する。
- 参考スコア(独自算出の注目度): 6.621745547882088
- License:
- Abstract: Although multimodal learning~(MML) has garnered remarkable progress, the existence of modality imbalance hinders multimodal learning from achieving its expected superiority over unimodal models in practice. To overcome this issue, mainstream multimodal learning methods have placed greater emphasis on balancing the learning process. However, these approaches do not explicitly enhance the classification ability of weaker modalities, leading to limited performance promotion. By designing a sustained boosting algorithm, we propose a novel multimodal learning approach to dynamically balance the classification ability of weak and strong modalities. Concretely, we first propose a sustained boosting algorithm in multimodal learning by simultaneously optimizing the classification and residual errors using a designed configurable classifier module. Then, we propose an adaptive classifier assignment strategy to dynamically facilitate the classification performance of weak modality. To this end, the classification ability of strong and weak modalities is expected to be balanced, thereby mitigating the imbalance issue. Empirical experiments on widely used datasets reveal the superiority of our method through comparison with various state-of-the-art~(SoTA) multimodal learning baselines.
- Abstract(参考訳): マルチモーダル学習〜(MML)は目覚ましい進歩を遂げているが、モダリティの不均衡の存在は、実際は単調モデルよりも期待される優位性を達成することを妨げている。
この問題を解決するために、主流のマルチモーダル学習手法は学習プロセスのバランスに重点を置いている。
しかし、これらの手法はより弱いモダリティの分類能力を明示的に向上させておらず、性能の向上が制限されている。
持続的なブースティングアルゴリズムを設計することにより、弱いモダリティと強いモダリティの分類能力を動的にバランスさせる新しいマルチモーダル学習手法を提案する。
具体的には、まず、設計した構成可能な分類器モジュールを用いて、分類と残差エラーを同時に最適化することにより、マルチモーダル学習における持続的強化アルゴリズムを提案する。
そこで本研究では,弱いモダリティの分類性能を動的に促進する適応型分類器割り当て戦略を提案する。
この目的のために、強いモダリティと弱いモダリティの分類能力のバランスが期待され、不均衡問題を緩和する。
広く使われているデータセットに対する実証実験により、様々な最先端〜(SoTA)マルチモーダル学習ベースラインとの比較により、本手法の優位性を明らかにした。
関連論文リスト
- Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Balance-aware Sequence Sampling Makes Multi-modal Learning Better [0.5439020425819]
MMLのロバスト性を高めるために,バランス対応シーケンスサンプリング(BSS)を提案する。
マルチパースペクティブ測定器を用いて,まず,各試料のバランス度を評価するための多パースペクティブ測定器を定義する。
カリキュラム学習(CL)に基づくスケジューラを用いて、バランスのとれたサンプルからバランスのとれたサンプルまで、段階的にトレーニングサブセットを提供する。
論文 参考訳(メタデータ) (2025-01-01T06:19:55Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Diagnosing and Re-learning for Balanced Multimodal Learning [8.779005254634857]
本稿では,不均衡なマルチモーダル学習問題を克服するための診断・再学習手法を提案する。
各モードの学習状態は、その一様表現空間の分離性に基づいて推定される。
このように、少ない情報モダリティの過度な強調は避けられる。
論文 参考訳(メタデータ) (2024-07-12T22:12:03Z) - Multimodal Classification via Modal-Aware Interactive Enhancement [6.621745547882088]
モーダル・アウェア・インタラクティブ・エンハンスメント(MIE)と呼ばれる新しいマルチモーダル学習手法を提案する。
具体的には、まず、シャープネス認識最小化(SAM)に基づく最適化戦略を用いて、前フェーズにおける学習目標の円滑化を図る。
そこで, SAMの幾何学的性質の助けを借りて, 逆相における異なるモード間の影響を加味するための勾配修正戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:32:07Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Towards Balanced Active Learning for Multimodal Classification [15.338417969382212]
マルチモーダルネットワークのトレーニングには、ユニモーダルネットワークと比較してパラメータ空間が大きいため、膨大な量のデータが必要である。
アクティブラーニングは、モデルの性能向上に寄与するサンプルのみを選択することで、データアノテーションコストを削減するために広く使われているテクニックである。
現在のアクティブラーニング戦略は、主に一助的なタスクのために設計されており、マルチモーダルデータに適用すると、支配的なモダリティからのサンプル選択にバイアスがかかることがしばしばある。
論文 参考訳(メタデータ) (2023-06-14T07:23:36Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。