論文の概要: E2PL: Effective and Efficient Prompt Learning for Incomplete Multi-view Multi-Label Class Incremental Learning
- arxiv url: http://arxiv.org/abs/2601.17076v1
- Date: Fri, 23 Jan 2026 03:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.205362
- Title: E2PL: Effective and Efficient Prompt Learning for Incomplete Multi-view Multi-Label Class Incremental Learning
- Title(参考訳): E2PL:不完全なマルチビュー・マルチラベル・クラスインクリメンタル・ラーニングのための有効かつ効率的なプロンプト・ラーニング
- Authors: Jiajun Chen, Yue Wu, Kai Huang, Wen Xi, Yangyang Wu, Xiaoye Miao, Mengying Zhu, Meng Xi, Guanjie Cheng,
- Abstract要約: 我々は,IMvMLCILの効率的かつ効率的なプロンプト学習フレームワークであるtextsfE2PLを紹介する。
また,textsfE2PLは, 有効性と効率性の両方において, 常に最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 23.648354515768734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view multi-label classification (MvMLC) is indispensable for modern web applications aggregating information from diverse sources. However, real-world web-scale settings are rife with missing views and continuously emerging classes, which pose significant obstacles to robust learning. Prevailing methods are ill-equipped for this reality, as they either lack adaptability to new classes or incur exponential parameter growth when handling all possible missing-view patterns, severely limiting their scalability in web environments. To systematically address this gap, we formally introduce a novel task, termed \emph{incomplete multi-view multi-label class incremental learning} (IMvMLCIL), which requires models to simultaneously address heterogeneous missing views and dynamic class expansion. To tackle this task, we propose \textsf{E2PL}, an Effective and Efficient Prompt Learning framework for IMvMLCIL. \textsf{E2PL} unifies two novel prompt designs: \emph{task-tailored prompts} for class-incremental adaptation and \emph{missing-aware prompts} for the flexible integration of arbitrary view-missing scenarios. To fundamentally address the exponential parameter explosion inherent in missing-aware prompts, we devise an \emph{efficient prototype tensorization} module, which leverages atomic tensor decomposition to elegantly reduce the prompt parameter complexity from exponential to linear w.r.t. the number of views. We further incorporate a \emph{dynamic contrastive learning} strategy explicitly model the complex dependencies among diverse missing-view patterns, thus enhancing the model's robustness. Extensive experiments on three benchmarks demonstrate that \textsf{E2PL} consistently outperforms state-of-the-art methods in both effectiveness and efficiency. The codes and datasets are available at https://anonymous.4open.science/r/code-for-E2PL.
- Abstract(参考訳): MvMLC (Multi-view Multi-label classification) は、様々な情報源から情報を集約する現代のウェブアプリケーションには不可欠である。
しかし、現実世界のWebスケール設定は、ビューの欠如と継続的なクラスが不足しているため、堅牢な学習には大きな障害が伴う。
新しいクラスへの適応性の欠如や、見つからないすべてのパターンに対処する際の指数関数的成長の欠如、Web環境におけるスケーラビリティの大幅な制限など、この現実には一般的な方法が不適当である。
このギャップを体系的に解決するために,我々は,不均一な視点と動的クラス拡張を同時に扱うモデルを必要とする,emph{incomplete multi-view multi-label class incremental learning} (IMvMLCIL)と呼ばれる新しいタスクを正式に導入する。
この課題に対処するために,IMvMLCIL のための効率的かつ効率的な Prompt Learning フレームワークである \textsf{E2PL} を提案する。
クラスインクリメンタル適応のための \emph{task-tailored prompts} と、任意のビューミスシナリオの柔軟な統合のための \emph{missing-aware prompts} である。
このモジュールは、原子テンソル分解を利用して、指数関数から線形w.r.t.へのプロンプトパラメータの複雑性をエレガントに低減する。
さらに,多種多様なビューパターン間の複雑な依存関係を明示的にモデル化し,モデルのロバスト性を高めることを目的とした,‘emph{dynamic contrastive learning’戦略を取り入れた。
3つのベンチマークの大規模な実験により、‘textsf{E2PL} は、有効性と効率の両方において、最先端の手法よりも一貫して優れていることが示された。
コードとデータセットはhttps://anonymous.4open.science/r/code-for-E2PLで公開されている。
関連論文リスト
- From Points to Clouds: Learning Robust Semantic Distributions for Multi-modal Prompts [11.693848445032259]
大規模視覚言語モデル(VLM)を適応するための重要な手法として,MPL(Multimodal Prompt Learning)が登場した。
拡散モデルにインスパイアされた新しいフレームワークであるPoints-to-Clouds(P2C)を紹介する。
P2Cは、11データセットにわたる実験において、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-28T06:03:35Z) - One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning [32.13266149565313]
UniZeroのようなマルチタスクの世界モデルは、シングルタスク設定で優れている。
勾配の矛盾やモデル塑性の喪失はサンプルの効率を阻害することが多い。
本研究では,これらの課題を2つの相補的な視点 – 単一学習イテレーションと全体学習プロセス – から解決する。
論文 参考訳(メタデータ) (2025-09-09T17:27:53Z) - FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation [17.51747913191231]
大規模なtextbfFaster large textbfDistillation-large textbfBased large textbfPrompt large textbfLL (textbfFDBPL) を提案する。
複数のトレーニングステージにまたがってソフトな監視コンテキストを共有し、アクセラレーションされたI/Oを実装することで、問題に対処する。11データセットにわたる包括的な評価は、ベース・ツー・ニューな一般化、クロス・データセットの転送、ロバストネステストにおいて優れたパフォーマンスを示し、より高速なトレーニング速度で2.2倍の速さで達成する。
論文 参考訳(メタデータ) (2025-05-23T15:57:16Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。