論文の概要: Mind the Gap: A Framework for Assessing Pitfalls in Multimodal Active Learning
- arxiv url: http://arxiv.org/abs/2603.29677v1
- Date: Tue, 31 Mar 2026 12:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.65316
- Title: Mind the Gap: A Framework for Assessing Pitfalls in Multimodal Active Learning
- Title(参考訳): Mind the Gap:マルチモーダルアクティブラーニングにおける落とし穴評価フレームワーク
- Authors: Dustin Eisenhardt, Yunhee Jeong, Florian Buettner,
- Abstract要約: マルチモーダル学習は、ニューラルネットワークが異種ソースの情報を統合することを可能にするが、この環境でのアクティブな学習は、異なる課題に直面している。
これらには、モダリティの欠如、モダリティの難しさの違い、様々な相互作用構造が含まれる。
合成データセットを用いてこれらの落とし穴を分離するマルチモーダルアクティブラーニングのベンチマークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.704544380420456
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal learning enables neural networks to integrate information from heterogeneous sources, but active learning in this setting faces distinct challenges. These include missing modalities, differences in modality difficulty, and varying interaction structures. These are issues absent in the unimodal case. While the behavior of active learning strategies in unimodal settings is well characterized, their behavior under such multimodal conditions remains poorly understood. We introduce a new framework for benchmarking multimodal active learning that isolates these pitfalls using synthetic datasets, allowing systematic evaluation without confounding noise. Using this framework, we compare unimodal and multimodal query strategies and validate our findings on two real-world datasets. Our results show that models consistently develop imbalanced representations, relying primarily on one modality while neglecting others. Existing query methods do not mitigate this effect, and multimodal strategies do not consistently outperform unimodal ones. These findings highlight limitations of current active learning methods and underline the need for modality-aware query strategies that explicitly address these pitfalls. Code and benchmark resources will be made publicly available.
- Abstract(参考訳): マルチモーダル学習は、ニューラルネットワークが異種ソースの情報を統合することを可能にするが、この環境でのアクティブな学習は、異なる課題に直面している。
これらには、モダリティの欠如、モダリティの難しさの違い、様々な相互作用構造が含まれる。
これらは、一過性のケースで欠落している問題です。
単調な環境下でのアクティブな学習戦略の行動は特徴的であるが、そのようなマルチモーダルな条件下での行動はいまだに理解されていない。
合成データセットを用いてこれらの落とし穴を分離し、ノイズを発生させることなく体系的に評価できるマルチモーダル能動学習のベンチマークフレームワークを提案する。
このフレームワークを用いて、非モーダルおよびマルチモーダルなクエリ戦略を比較し、実世界の2つのデータセットで結果を検証する。
この結果から,モデルは不均衡な表現を連続的に発達し,主に1つのモダリティに依存しながら他を無視することを示した。
既存のクエリメソッドは、この効果を緩和しておらず、マルチモーダル戦略は、アンモダル手法よりも一貫して優れているわけではない。
これらの知見は、現在のアクティブラーニング手法の限界を強調し、これらの落とし穴に明示的に対処するモダリティ対応クエリ戦略の必要性を浮き彫りにしている。
コードとベンチマークのリソースが公開されます。
関連論文リスト
- From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Multimodal Negative Learning [55.67017420486548]
我々は新しい学習パラダイム"学習すべきでない"(Negative Learning)を提案する。
弱いモダリティのターゲットクラス予測を強化する代わりに、支配的なモダリティは弱いモダリティを動的に導き、非ターゲットクラスを抑える。
これは決定空間を安定化させ、モダリティ固有の情報を保存する。
論文 参考訳(メタデータ) (2025-10-23T11:47:11Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Towards Balanced Active Learning for Multimodal Classification [15.338417969382212]
マルチモーダルネットワークのトレーニングには、ユニモーダルネットワークと比較してパラメータ空間が大きいため、膨大な量のデータが必要である。
アクティブラーニングは、モデルの性能向上に寄与するサンプルのみを選択することで、データアノテーションコストを削減するために広く使われているテクニックである。
現在のアクティブラーニング戦略は、主に一助的なタスクのために設計されており、マルチモーダルデータに適用すると、支配的なモダリティからのサンプル選択にバイアスがかかることがしばしばある。
論文 参考訳(メタデータ) (2023-06-14T07:23:36Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。