論文の概要: Knowledge is Power: Advancing Few-shot Action Recognition with Multimodal Semantics from MLLMs
- arxiv url: http://arxiv.org/abs/2603.26033v1
- Date: Fri, 27 Mar 2026 03:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.33764
- Title: Knowledge is Power: Advancing Few-shot Action Recognition with Multimodal Semantics from MLLMs
- Title(参考訳): 知識は力である:MLLMからのマルチモーダルセマンティックスによるFew-shot行動認識の改善
- Authors: Jiazheng Xing, Chao Xu, Hangjie Yuan, Mengmeng Wang, Jun Dan, Hangwei Qian, Yong Liu,
- Abstract要約: 我々は,FSARの強化のためのマルチモーダル知識基盤としてMLLMを利用する最初のエンドツーエンド手法であるFSAR-LLaVAを提案する。
まず,MLLMのマルチモーダルデコーダを用いて時間的・意味的に豊かな表現を抽出する。
次に,MLLMの汎用性を活用して,多様なシナリオに柔軟に対応する入力プロンプトを構築する。
最後に,マルチモーダルな特徴を併用してメトリック学習をガイドするために,トレーニング不要なマルチモーダルプロトタイプマッチングメトリクスを導入する。
- 参考スコア(独自算出の注目度): 37.35588113092876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have propelled the field of few-shot action recognition (FSAR). However, preliminary explorations in this area primarily focus on generating captions to form a suboptimal feature->caption->feature pipeline and adopt metric learning solely within the visual space. In this paper, we propose FSAR-LLaVA, the first end-to-end method to leverage MLLMs (such as Video-LLaVA) as a multimodal knowledge base for directly enhancing FSAR. First, at the feature level, we leverage the MLLM's multimodal decoder to extract spatiotemporally and semantically enriched representations, which are then decoupled and enhanced by our Multimodal Feature-Enhanced Module into distinct visual and textual features that fully exploit their semantic knowledge for FSAR. Next, we leverage the versatility of MLLMs to craft input prompts that flexibly adapt to diverse scenarios, and use their aligned outputs to drive our designed Composite Task-Oriented Prototype Construction, effectively bridging the distribution gap between meta-train and meta-test sets. Finally, to enable multimodal features to guide metric learning jointly, we introduce a training-free Multimodal Prototype Matching Metric that adaptively selects the most decisive cues and efficiently leverages the decoupled feature representations produced by MLLMs. Extensive experiments demonstrate superior performance across various tasks with minimal trainable parameters.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、マイクロショットアクション認識(FSAR)の分野を推進している。
しかし、この領域における予備的な調査は、主に、最適な機能>キャプション>キャプション>機能パイプラインを形成するキャプションを生成し、視覚空間内でのみメートル法学習を採用することに重点を置いている。
本稿では,FSARを直接拡張するためのマルチモーダル知識基盤としてMLLM(Video-LLaVAなど)を利用する最初のエンドツーエンド手法であるFSAR-LLaVAを提案する。
まず、機能レベルではMLLMのマルチモーダルデコーダを利用して、時空間的および意味的にリッチな表現を抽出し、その後、我々のマルチモーダル特徴拡張モジュールによって、FSARのセマンティック知識を完全に活用する視覚的およびテキスト的特徴へと分離して拡張する。
次に、MLLMの汎用性を活用して、多様なシナリオに柔軟に対応可能な入力プロンプトを作成し、その整列出力を用いて、設計した複合タスク指向プロトタイプ構築を駆動し、メタトレインとメタテストセット間の分散ギャップを効果的に埋める。
最後に,マルチモーダルな特徴がメトリクス学習を協調的にガイドすることを可能にするために,MLLMが生成する分離された特徴表現を効率よく活用し,最も決定的な手がかりを適応的に選択する学習自由なマルチモーダルプロトタイプマッチングメトリックを導入する。
大規模な実験は、訓練可能な最小限のパラメータで様々なタスクにまたがる優れた性能を示す。
関連論文リスト
- NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models [33.37379526356273]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。