論文の概要: Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2212.04873v2
- Date: Fri, 3 Nov 2023 10:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 18:31:25.293992
- Title: Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition
- Title(参考訳): ファウショット行動認識のためのマルチモーダルプロトタイプ強化ネットワーク
- Authors: Xinzhe Ni, Yong Liu, Hao Wen, Yatai Ji, Jing Xiao, Yujiu Yang
- Abstract要約: MultimOdal PRototype-ENhanced Network (MORN)は、ラベルテキストの意味情報をマルチモーダル情報として利用してプロトタイプを強化する。
我々は4つの一般的なデータセットに対して広範な実験を行い、MORNは最先端の結果を得る。
- 参考スコア(独自算出の注目度): 42.73344826624933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for few-shot action recognition mainly fall into the metric
learning framework following ProtoNet, which demonstrates the importance of
prototypes. Although they achieve relatively good performance, the effect of
multimodal information is ignored, e.g. label texts. In this work, we propose a
novel MultimOdal PRototype-ENhanced Network (MORN), which uses the semantic
information of label texts as multimodal information to enhance prototypes. A
CLIP visual encoder and a frozen CLIP text encoder are introduced to obtain
features with good multimodal initialization. Then in the visual flow, visual
prototypes are computed by a Temporal-Relational CrossTransformer (TRX) module
for example. In the text flow, a semantic-enhanced (SE) module and an inflating
operation are used to obtain text prototypes. The final multimodal prototypes
are then computed by a multimodal prototype-enhanced (MPE) module. Besides, we
define a PRototype SImilarity DiffErence (PRIDE) to evaluate the quality of
prototypes, which is used to verify our improvement on the prototype level and
effectiveness of MORN. We conduct extensive experiments on four popular
datasets, and MORN achieves state-of-the-art results on HMDB51, UCF101,
Kinetics and SSv2. When plugging PRIDE into the training stage, the performance
can be further improved.
- Abstract(参考訳): 数少ないアクション認識のための現在の方法は、プロトタイプの重要性を示すprotonetに続くメトリック学習フレームワークに主に当てはまる。
比較的良好な性能を発揮するが、ラベルテキストなど、マルチモーダル情報の影響は無視される。
本研究では,ラベルテキストのセマンティック情報をマルチモーダル情報として利用してプロトタイプの強化を図る,MORN(MultimOdal PRototype-ENhanced Network)を提案する。
CLIPビジュアルエンコーダと冷凍CLIPテキストエンコーダを導入し、優れたマルチモーダル初期化機能を実現する。
そして、ビジュアルフローでは、例えば、時間関係クロストランスフォーマ(trx)モジュールによってビジュアルプロトタイプが計算される。
テキストフローでは、テキストプロトタイプを得るためにセマンティックエンハンス(se)モジュールとインフレータリング操作を用いる。
最終的なマルチモーダルプロトタイプは、マルチモーダルプロトタイプ強化(MPE)モジュールによって計算される。
さらに,プロトタイプの品質を評価するためにPRIDE (PRototype SImilarity DiffErence) を定義し,MORNのプロトタイプレベルと有効性の改善を検証する。
我々は4つの一般的なデータセットについて広範な実験を行い、MORNはHMDB51, UCF101, Kinetics, SSv2で最先端の結果を得る。
PRIDEをトレーニングステージに挿入すると、さらに性能が向上する。
関連論文リスト
- GAProtoNet: A Multi-head Graph Attention-based Prototypical Network for Interpretable Text Classification [1.170190320889319]
GAProtoNetは、新しいホワイトボックスマルチヘッドグラフアテンションベースのプロトタイプネットワークである。
提案手法は,元のブラックボックスLMの精度を犠牲にすることなく,優れた結果が得られる。
プロトタイプクラスタのケーススタディと可視化は,LMを用いて構築したブラックボックスモデルの決定を効率的に説明できることを示す。
論文 参考訳(メタデータ) (2024-09-20T08:15:17Z) - Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation [7.372346036256517]
意味的セグメンテーションを解釈可能なものにするための、有望なアプローチとして、プロトタイプ的な部分学習が登場している。
本稿では,多スケール画像表現を利用した意味的セグメンテーションの解釈手法を提案する。
Pascal VOC,Cityscapes,ADE20Kで行った実験により,提案手法はモデルの疎結合性を高め,既存のプロトタイプ手法よりも解釈可能性を高め,非解釈可能なモデルとの性能ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2024-09-14T17:52:59Z) - Mixed Prototype Consistency Learning for Semi-supervised Medical Image Segmentation [0.0]
本稿では,Mixed Prototype Consistency Learning (MPCL) フレームワークを提案する。
Mean Teacherはラベル付きおよびラベルなしデータのプロトタイプを生成し、補助ネットワークはCutMixによって処理された混合データのための追加のプロトタイプを生成する。
各クラスの高品質なグローバルプロトタイプは、2つの強化されたプロトタイプを融合して形成され、一貫性学習に使用される隠れ埋め込みの分布を最適化する。
論文 参考訳(メタデータ) (2024-04-16T16:51:12Z) - Query-guided Prototype Evolution Network for Few-Shot Segmentation [85.75516116674771]
本稿では,前景と背景のプロトタイプの生成プロセスにクエリ機能を統合する新しい手法を提案する。
PASCAL-$5i$とミラーリング-$20i$データセットの実験結果は、QPENetが達成した実質的な拡張を示している。
論文 参考訳(メタデータ) (2024-03-11T07:50:40Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Few-Shot Segmentation via Rich Prototype Generation and Recurrent
Prediction Enhancement [12.614578133091168]
本稿では,プロトタイプ学習パラダイムを強化するために,リッチプロトタイプ生成モジュール (RPGM) と繰り返し予測拡張モジュール (RPEM) を提案する。
RPGMはスーパーピクセルとK平均クラスタリングを組み合わせて、補完的なスケール関係を持つリッチなプロトタイプ機能を生成する。
RPEMは、リカレントメカニズムを使用して、ラウンドウェイ伝搬デコーダを設計する。
論文 参考訳(メタデータ) (2022-10-03T08:46:52Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Learning Sparse Prototypes for Text Generation [120.38555855991562]
プロトタイプ駆動のテキスト生成は、トレーニングコーパス全体の保存とインデックスを必要とするため、テスト時に非効率である。
本稿では,言語モデリング性能を向上するスパースなプロトタイプサポートセットを自動的に学習する新しい生成モデルを提案する。
実験では,1000倍のメモリ削減を実現しつつ,従来のプロトタイプ駆動型言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-06-29T19:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。