論文の概要: Label What Matters: Modality-Balanced and Difficulty-Aware Multimodal Active Learning
- arxiv url: http://arxiv.org/abs/2603.25107v1
- Date: Thu, 26 Mar 2026 07:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.152812
- Title: Label What Matters: Modality-Balanced and Difficulty-Aware Multimodal Active Learning
- Title(参考訳): モダリティベースで難易度の高いマルチモーダルアクティブラーニング
- Authors: Yuqiao Zeng, Xu Wang, Tengfei Liang, Yiqing Hao, Yi Jin, Hui Yu,
- Abstract要約: モダリティバランスと難易度を考慮した能動学習のための強化学習フレームワークRL-MBAを提案する。
Food101、KineeticsSound、VGGSoundの実験は、RL-MBAが強いベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 13.136629024689432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal learning integrates complementary information from different modalities such as image, text, and audio to improve model performance, but its success relies on large-scale labeled data, which is costly to obtain. Active learning (AL) mitigates this challenge by selectively annotating informative samples. In multimodal settings, many approaches implicitly assume that modality importance is stable across rounds and keep selection rules fixed at the fusion stage, which leaves them insensitive to the dynamic nature of multimodal learning, where the relative value of modalities and the difficulty of instances shift as training proceeds. To address this issue, we propose RL-MBA, a reinforcement-learning framework for modality-balanced, difficulty-aware multimodal active learning. RL-MBA models sample selection as a Markov Decision Process, where the policy adapts to modality contributions, uncertainty, and diversity, and the reward encourages accuracy gains and balance. Two key components drive this adaptability: (1) Adaptive Modality Contribution Balancing (AMCB), which dynamically adjusts modality weights via reinforcement feedback, and (2) Evidential Fusion for DifficultyAware Policy Adjustment (EFDA), which estimates sample difficulty via uncertainty-based evidential fusion to prioritize informative samples. Experiments on Food101, KineticsSound, and VGGSound demonstrate that RL-MBA consistently outperforms strong baselines, improving both classification accuracy and modality fairness under limited labeling budgets.
- Abstract(参考訳): マルチモーダル学習は、画像、テキスト、オーディオなどの様々なモダリティからの補完情報を統合してモデル性能を向上させるが、その成功は、取得にコストがかかる大規模ラベル付きデータに依存している。
アクティブラーニング(AL)は、情報的サンプルを選択的にアノテートすることで、この課題を軽減する。
マルチモーダル・セッティングにおいて、多くのアプローチでは、モダリティの重要度はラウンド間で安定であり、融合段階における選択規則を維持していると暗黙的に仮定している。
この問題に対処するために,モダリティバランスと難易度を考慮したマルチモーダル能動学習のための強化学習フレームワークRL-MBAを提案する。
RL-MBAはサンプル選択をマルコフ決定プロセスとしてモデル化し、ポリシーはモダリティの貢献、不確実性、多様性に適応し、報酬は精度の向上とバランスを促進する。
適応的モダリティ貢献バランス(AMCB)は, 適応的モダリティ貢献バランス(adaptive Modality Contribution Balancing, AMCB)であり, 強化フィードバックによるモダリティウェイトを動的に調整する。
Food101、KineeticsSound、VGGSoundの実験では、RL-MBAは強いベースラインを一貫して上回り、限られたラベル付け予算下での分類精度とモダリティフェアネスの両方を改善している。
関連論文リスト
- Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-11-09T11:13:32Z) - MIDAS: Misalignment-based Data Augmentation Strategy for Imbalanced Multimodal Learning [14.06705718861471]
マルチモーダルモデルは、しばしば支配的なモダリティに過度に頼り、最適な性能を達成できなかった。
提案するMIDASは,意味的に整合性のないクロスモーダル情報を用いて,ミスアライメントされたサンプルを生成する新しいデータ拡張戦略である。
複数のマルチモーダル分類ベンチマークの実験により、MIDASはモダリティの不均衡に対処する上で、関連するベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-30T06:13:17Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning [27.20479303843989]
DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化するために設計された、新しい動的カリキュラム学習フレームワークである。
DynCIMは、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価するために、サンプルレベルのカリキュラムを使用している。
モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
論文 参考訳(メタデータ) (2025-03-09T05:30:15Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。