Fugu-MT 論文翻訳(概要): Multimodal Adaptation of CLIP for Few-Shot Action Recognition

論文の概要: Multimodal Adaptation of CLIP for Few-Shot Action Recognition

arxiv url: http://arxiv.org/abs/2308.01532v1
Date: Thu, 3 Aug 2023 04:17:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-04 15:15:20.865435
Title: Multimodal Adaptation of CLIP for Few-Shot Action Recognition
Title（参考訳）: Few-Shot行動認識のためのCLIPのマルチモーダル適応
Authors: Jiazheng Xing, Mengmeng Wang, Xiaojun Hou, Guang Dai, Jingdong Wang, Yong Liu
Abstract要約: 本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。私たちが設計したアダプタは、タスク指向の時間的モデリングのためのビデオテキストソースからの情報を組み合わせることができる。当社のMA-CLIPはプラグイン・アンド・プレイであり、様々な数発のアクション認識時間的アライメントメトリックで使用することができる。
参考スコア（独自算出の注目度）: 42.88862774719768
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Applying large-scale pre-trained visual models like CLIP to few-shot action recognition tasks can benefit performance and efficiency. Utilizing the "pre-training, fine-tuning" paradigm makes it possible to avoid training a network from scratch, which can be time-consuming and resource-intensive. However, this method has two drawbacks. First, limited labeled samples for few-shot action recognition necessitate minimizing the number of tunable parameters to mitigate over-fitting, also leading to inadequate fine-tuning that increases resource consumption and may disrupt the generalized representation of models. Second, the video's extra-temporal dimension challenges few-shot recognition's effective temporal modeling, while pre-trained visual models are usually image models. This paper proposes a novel method called Multimodal Adaptation of CLIP (MA-CLIP) to address these issues. It adapts CLIP for few-shot action recognition by adding lightweight adapters, which can minimize the number of learnable parameters and enable the model to transfer across different tasks quickly. The adapters we design can combine information from video-text multimodal sources for task-oriented spatiotemporal modeling, which is fast, efficient, and has low training costs. Additionally, based on the attention mechanism, we design a text-guided prototype construction module that can fully utilize video-text information to enhance the representation of video prototypes. Our MA-CLIP is plug-and-play, which can be used in any different few-shot action recognition temporal alignment metric.
Abstract（参考訳）: CLIPのような大規模トレーニング済みのビジュアルモデルを数ショットのアクション認識タスクに適用することで、パフォーマンスと効率性が向上する。事前トレーニング、微調整”パラダイムを利用することで、ネットワークのトレーニングをスクラッチから回避することが可能になります。しかし、この方法には2つの欠点がある。第一に、少数のアクション認識のための限定されたラベル付きサンプルは、調整可能なパラメータの数を最小限に抑え、過剰適合を緩和し、資源消費を増大させ、モデルの一般化表現を阻害する不適切な微調整をもたらす。第2に、ビデオの時間外次元は、ほとんどショット認識の効果的な時間モデルに挑戦するが、事前訓練された視覚モデルは通常イメージモデルである。本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。軽量なアダプタを追加し、学習可能なパラメータの数を最小化し、モデルをさまざまなタスク間で素早く転送できるようにする。我々の設計したアダプタは、タスク指向の時空間モデリングのためのビデオテキストマルチモーダルソースからの情報を組み合わせることができる。さらに,注意機構に基づいて,ビデオプロトタイプの表現性を高めるために,映像テキスト情報を十分に活用できるテキスト誘導型プロトタイプ構築モジュールを設計する。当社のma-clipはプラグ・アンド・プレイであり、あらゆる異なるマイナショットアクション認識時間アライメントメトリックで使用できる。

関連論文リスト

VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation [18.680875997611025]
VP Labは、堅牢なセグメンテーションモデル開発のための視覚的プロンプトを強化する包括的な反復フレームワークである。 E-PEFTは、視覚的なプロンプトパイプラインを特定の領域に適応させるために設計されたパラメータ効率の良い微調整技法の新たなアンサンブルである。 E-PEFTと視覚的プロンプトを組み合わせることで、様々な技術データセット間でセマンティックセグメンテーションmIoUの性能が50%向上することを示す。
論文参考訳（メタデータ） (2025-05-21T14:46:57Z)
Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文参考訳（メタデータ） (2024-11-18T01:25:58Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。 ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文参考訳（メタデータ） (2024-07-08T12:28:56Z)
FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文参考訳（メタデータ） (2024-07-02T10:55:43Z)
M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition [39.92547393649842]
これらの課題に対処するために,新しいMultimodal,Multi-task CLIP適応フレームワークの名前付きフレームワークを導入する。ゼロショットシナリオにおける強力な一般化を維持しつつ、教師あり学習における例外的な性能を示す。
論文参考訳（メタデータ） (2024-01-22T02:03:31Z)
Concept-Guided Prompt Learning for Generalization in Vision-Language Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。 Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文参考訳（メタデータ） (2024-01-15T04:04:47Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)
Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文参考訳（メタデータ） (2022-07-14T01:45:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。