論文の概要: Towards Multimodal Active Learning: Efficient Learning with Limited Paired Data
- arxiv url: http://arxiv.org/abs/2510.03247v1
- Date: Thu, 25 Sep 2025 23:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.794025
- Title: Towards Multimodal Active Learning: Efficient Learning with Limited Paired Data
- Title(参考訳): マルチモーダルアクティブラーニングに向けて:限られたペアデータによる効率的なラーニング
- Authors: Jiancheng Zhang, Yinglun Zhu,
- Abstract要約: 非整合データを用いたマルチモーダル能動学習のための第1のフレームワークを導入し、学習者はクロスモーダルアライメントを積極的に取得しなければならない。
我々は,不確実性と多様性の原則を組み合わさった新しいアルゴリズムを開発し,線形時間取得を実現し,プールベースとストリーミングベースの両方の設定にシームレスに適用する。
- 参考スコア(独自算出の注目度): 11.208532172149061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning (AL) is a principled strategy to reduce annotation cost in data-hungry deep learning. However, existing AL algorithms focus almost exclusively on unimodal data, overlooking the substantial annotation burden in multimodal learning. We introduce the first framework for multimodal active learning with unaligned data, where the learner must actively acquire cross-modal alignments rather than labels on pre-aligned pairs. This setting captures the practical bottleneck in modern multimodal pipelines such as CLIP and SigLIP, where unimodal features are easy to obtain but high-quality alignment is costly. We develop a new algorithm that combines uncertainty and diversity principles in a modality-aware design, achieves linear-time acquisition, and applies seamlessly to both pool-based and streaming-based settings. Extensive experiments on benchmark datasets demonstrate that our approach consistently reduces multimodal annotation cost while preserving performance; for instance, on the ColorSwap dataset it cuts annotation requirements by up to $40\%$ without loss in accuracy.
- Abstract(参考訳): アクティブ・ラーニング(英: Active Learning, AL)は、データ・ハングリー・ディープ・ラーニングにおけるアノテーションのコストを削減するための原則的戦略である。
しかし、既存のALアルゴリズムは、マルチモーダル学習における実質的なアノテーションの負担を見越して、ほぼ単調なデータにのみ焦点をあてている。
非整合データを用いたマルチモーダル能動学習のための最初のフレームワークを導入する。
この設定は、CLIPやSigLIPのようなモダンなマルチモーダルパイプラインの実用的ボトルネックを捉えている。
我々は、不確実性と多様性の原則をモダリティに意識した設計で組み合わせ、線形時間取得を実現し、プールベースとストリーミングベースの設定の両方にシームレスに適用する新しいアルゴリズムを開発した。
例えば、ColorSwapデータセットでは、精度を損なわずに、アノテーションの要求を最大40\%まで削減しています。
関連論文リスト
- Improving Multimodal Learning Balance and Sufficiency through Data Remixing [14.282792733217653]
弱いモダリティを強制する方法は、単調な充足性とマルチモーダルなバランスを達成できない。
マルチモーダルデータのデカップリングや,各モーダルに対するハードサンプルのフィルタリングなど,モダリティの不均衡を軽減するマルチモーダルデータリミックスを提案する。
提案手法は既存の手法とシームレスに統合され,CREMADでは約6.50%$uparrow$,Kineetic-Soundsでは3.41%$uparrow$の精度が向上する。
論文 参考訳(メタデータ) (2025-06-13T08:01:29Z) - Robust Multimodal Learning via Cross-Modal Proxy Tokens [11.704477276235847]
クロスモーダルプロキシトークン(CMPT)は、明示的なモダリティ生成や補助的ネットワークを必要とすることなく、欠落したモダリティのクラストークンを近似する。
フリーズユニモーダルエンコーダに低ランクアダプタを使用し、タスク固有の損失を伴うアライメント損失を共同で最適化する。
我々の手法は、堅牢なマルチモーダル学習のための柔軟で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-01-29T18:15:49Z) - Maximally Separated Active Learning [32.98415531556376]
固定等角超球面点をクラスプロトタイプとして利用する能動的学習法を提案する。
5つのベンチマークデータセットにまたがる既存のアクティブラーニング技術よりも高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-26T14:02:43Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Learning from the Best: Active Learning for Wireless Communications [9.523381807291049]
アクティブな学習アルゴリズムは、ラベル付けされていないデータセットの中で最も重要で情報に富んだサンプルを特定し、完全なデータセットではなく、これらのサンプルのみをラベル付けする。
本稿では, ディープラーニングに基づくmmWaveビーム選択のケーススタディとして, 包括探索に基づく計算集約アルゴリズムを用いてラベル付けを行う。
この結果から,クラス不均衡データセットに対するアクティブな学習アルゴリズムを用いることで,データセットのラベル付けオーバーヘッドを最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-01-23T12:21:57Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。