論文の概要: MPA: Multimodal Prototype Augmentation for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2602.10143v1
- Date: Mon, 09 Feb 2026 08:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.173721
- Title: MPA: Multimodal Prototype Augmentation for Few-Shot Learning
- Title(参考訳): MPA:Few-Shot Learningのためのマルチモーダルプロトタイプ拡張
- Authors: Liwen Wu, Wei Wang, Lei Zhao, Zhan Gao, Qika Lin, Shaowen Yao, Zuozhu Liu, Bin Pu,
- Abstract要約: 少数のラベル付き例から新しいクラスを認識することを目的とした、いくつかのショット学習がポピュラーなタスクとなっている。
本稿では,MPA(Multi-Variant Semantic Enhancement, LMSE), Hierarchical Multi-View Augmentation (HMA), Adaptive Uncertain Class Absorber (AUCA)などの新しいフレームワークを提案する。
MPAは、ほとんどの設定で既存の最先端メソッドよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 36.74394076733568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, few-shot learning (FSL) has become a popular task that aims to recognize new classes from only a few labeled examples and has been widely applied in fields such as natural science, remote sensing, and medical images. However, most existing methods focus only on the visual modality and compute prototypes directly from raw support images, which lack comprehensive and rich multimodal information. To address these limitations, we propose a novel Multimodal Prototype Augmentation FSL framework called MPA, including LLM-based Multi-Variant Semantic Enhancement (LMSE), Hierarchical Multi-View Augmentation (HMA), and an Adaptive Uncertain Class Absorber (AUCA). LMSE leverages large language models to generate diverse paraphrased category descriptions, enriching the support set with additional semantic cues. HMA exploits both natural and multi-view augmentations to enhance feature diversity (e.g., changes in viewing distance, camera angles, and lighting conditions). AUCA models uncertainty by introducing uncertain classes via interpolation and Gaussian sampling, effectively absorbing uncertain samples. Extensive experiments on four single-domain and six cross-domain FSL benchmarks demonstrate that MPA achieves superior performance compared to existing state-of-the-art methods across most settings. Notably, MPA surpasses the second-best method by 12.29% and 24.56% in the single-domain and cross-domain setting, respectively, in the 5-way 1-shot setting.
- Abstract(参考訳): 近年,いくつかのラベル付き例から新しいクラスを認識することを目的としたFSLが普及し,自然科学,リモートセンシング,医用画像などの分野に広く応用されている。
しかし、既存のほとんどの手法は、包括的でリッチなマルチモーダル情報を持たない生画像から直接視覚的モダリティとプロトタイプを計算することのみに焦点を当てている。
これらの制約に対処するために,LLMに基づく多言語セマンティックエンハンスメント (LMSE) や階層型マルチビュー拡張 (HMA) ,適応型不確かさクラスアソルバー (AUCA) など,MPAと呼ばれる新しいマルチモーダルプロトタイプ拡張FSLフレームワークを提案する。
LMSEは、大きな言語モデルを活用して、様々なパラフレーズのカテゴリ記述を生成し、追加のセマンティック・キューでサポートセットを充実させる。
HMAは自然と多視点の両方の拡張を利用して特徴の多様性を高める(例えば、視野距離の変化、カメラアングル、照明条件)。
AUCAは補間とガウスサンプリングによって不確実なクラスを導入し、不確実なサンプルを効果的に吸収することによって不確実性をモデル化する。
4つの単一ドメインと6つのクロスドメインのFSLベンチマークの大規模な実験により、MSAは既存の最先端の手法に比べて、多くの設定で優れた性能を発揮することが示された。
特に、MPAは5ウェイ1ショット設定で、シングルドメインとクロスドメインの設定でそれぞれ12.29%と24.56%の2番目のベストメソッドを上回っている。
関連論文リスト
- Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - Prompt as Free Lunch: Enhancing Diversity in Source-Free Cross-domain Few-shot Learning through Semantic-Guided Prompting [9.116108409344177]
ソースフリーのクロスドメイン数ショット学習タスクは、最小限のサンプルを使用して、トレーニング済みのモデルをターゲットのドメインに転送することを目的としている。
本稿では2つのフェーズに分けられるSeGD-VPTフレームワークを提案する。
最初のステップは、各サポートサンプルに多様性プロンプトを追加し、様々な入力を生成し、サンプルの多様性を高めることで、機能の多様性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-01T11:00:38Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Exploring Multi-Timestep Multi-Stage Diffusion Features for Hyperspectral Image Classification [16.724299091453844]
拡散に基づくHSI分類法は,手動で選択した単一段階の特徴のみを利用する。
MTMSDと呼ばれる,HSI分類のための多段階多段階拡散機能を初めて検討した,拡散に基づく新しい特徴学習フレームワークを提案する。
提案手法は,HSI分類の最先端手法,特にヒューストン2018データセットより優れている。
論文 参考訳(メタデータ) (2023-06-15T08:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。