論文の概要: Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2212.04873v1
- Date: Fri, 9 Dec 2022 14:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:18:57.935607
- Title: Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition
- Title(参考訳): ファウショット行動認識のためのマルチモーダルプロトタイプ強化ネットワーク
- Authors: Xinzhe Ni, Hao Wen, Yong Liu, Yatai Ji, Yujiu Yang
- Abstract要約: 本稿では,ラベルテキストのセマンティック情報をマルチモーダル情報として利用してプロトタイプの強化を図るための,MORN(Multimodal Prototype-Enhanced Network)を提案する。
CLIPビジュアルエンコーダはビジュアルフローに導入され、ビジュアルプロトタイプはテンポラルリレーショナルクロストランスフォーマー(TRX)モジュールによって計算される。
最終的なマルチモーダルプロトタイプは、マルチモーダルプロトタイプ拡張モジュールによって計算される。
- 参考スコア(独自算出の注目度): 21.581587158269887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for few-shot action recognition mainly fall into the metric
learning framework following ProtoNet. However, they either ignore the effect
of representative prototypes or fail to enhance the prototypes with multimodal
information adequately. In this work, we propose a novel Multimodal
Prototype-Enhanced Network (MORN) to use the semantic information of label
texts as multimodal information to enhance prototypes, including two modality
flows. A CLIP visual encoder is introduced in the visual flow, and visual
prototypes are computed by the Temporal-Relational CrossTransformer (TRX)
module. A frozen CLIP text encoder is introduced in the text flow, and a
semantic-enhanced module is used to enhance text features. After inflating,
text prototypes are obtained. The final multimodal prototypes are then computed
by a multimodal prototype-enhanced module. Besides, there exist no evaluation
metrics to evaluate the quality of prototypes. To the best of our knowledge, we
are the first to propose a prototype evaluation metric called Prototype
Similarity Difference (PRIDE), which is used to evaluate the performance of
prototypes in discriminating different categories. We conduct extensive
experiments on four popular datasets. MORN achieves state-of-the-art results on
HMDB51, UCF101, Kinetics and SSv2. MORN also performs well on PRIDE, and we
explore the correlation between PRIDE and accuracy.
- Abstract(参考訳): 最小ショット動作認識の現在の手法は、主にprotonetに続くメトリック学習フレームワークに当てはまる。
しかし、彼らは代表プロトタイプの効果を無視するか、あるいはマルチモーダル情報でプロトタイプを強化するのに失敗する。
本研究では,2つのモーダルフローを含むプロトタイプを強化するために,ラベルテキストの意味情報をマルチモーダル情報として利用する新しいMORNを提案する。
CLIPビジュアルエンコーダはビジュアルフローに導入され、ビジュアルプロトタイプはテンポラルリレーショナルクロストランスフォーマー(TRX)モジュールによって計算される。
テキストフローにフリーズされたCLIPテキストエンコーダを導入し、テキスト機能を強化するためにセマンティック拡張モジュールを使用する。
膨らませた後、テキストプロトタイプを得る。
最終的なマルチモーダルプロトタイプは、マルチモーダルプロトタイプ拡張モジュールによって計算される。
さらに、プロトタイプの品質を評価するための評価指標は存在しない。
我々の知る限り、我々はまずプロトタイプ類似度差(PRIDE)と呼ばれるプロトタイプ評価指標を提案し、異なるカテゴリの識別においてプロトタイプの性能を評価するのに使用される。
4つの一般的なデータセットについて広範な実験を行う。
MORNはHMDB51, UCF101, Kinetics, SSv2で最先端の結果を得る。
MORNはPRIDEでも良好に動作し,PRIDEと精度の相関について検討する。
関連論文リスト
- GAProtoNet: A Multi-head Graph Attention-based Prototypical Network for Interpretable Text Classification [1.170190320889319]
GAProtoNetは、新しいホワイトボックスマルチヘッドグラフアテンションベースのプロトタイプネットワークである。
提案手法は,元のブラックボックスLMの精度を犠牲にすることなく,優れた結果が得られる。
プロトタイプクラスタのケーススタディと可視化は,LMを用いて構築したブラックボックスモデルの決定を効率的に説明できることを示す。
論文 参考訳(メタデータ) (2024-09-20T08:15:17Z) - Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation [7.372346036256517]
意味的セグメンテーションを解釈可能なものにするための、有望なアプローチとして、プロトタイプ的な部分学習が登場している。
本稿では,多スケール画像表現を利用した意味的セグメンテーションの解釈手法を提案する。
Pascal VOC,Cityscapes,ADE20Kで行った実験により,提案手法はモデルの疎結合性を高め,既存のプロトタイプ手法よりも解釈可能性を高め,非解釈可能なモデルとの性能ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2024-09-14T17:52:59Z) - Mixed Prototype Consistency Learning for Semi-supervised Medical Image Segmentation [0.0]
本稿では,Mixed Prototype Consistency Learning (MPCL) フレームワークを提案する。
Mean Teacherはラベル付きおよびラベルなしデータのプロトタイプを生成し、補助ネットワークはCutMixによって処理された混合データのための追加のプロトタイプを生成する。
各クラスの高品質なグローバルプロトタイプは、2つの強化されたプロトタイプを融合して形成され、一貫性学習に使用される隠れ埋め込みの分布を最適化する。
論文 参考訳(メタデータ) (2024-04-16T16:51:12Z) - Query-guided Prototype Evolution Network for Few-Shot Segmentation [85.75516116674771]
本稿では,前景と背景のプロトタイプの生成プロセスにクエリ機能を統合する新しい手法を提案する。
PASCAL-$5i$とミラーリング-$20i$データセットの実験結果は、QPENetが達成した実質的な拡張を示している。
論文 参考訳(メタデータ) (2024-03-11T07:50:40Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Few-Shot Segmentation via Rich Prototype Generation and Recurrent
Prediction Enhancement [12.614578133091168]
本稿では,プロトタイプ学習パラダイムを強化するために,リッチプロトタイプ生成モジュール (RPGM) と繰り返し予測拡張モジュール (RPEM) を提案する。
RPGMはスーパーピクセルとK平均クラスタリングを組み合わせて、補完的なスケール関係を持つリッチなプロトタイプ機能を生成する。
RPEMは、リカレントメカニズムを使用して、ラウンドウェイ伝搬デコーダを設計する。
論文 参考訳(メタデータ) (2022-10-03T08:46:52Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Learning Sparse Prototypes for Text Generation [120.38555855991562]
プロトタイプ駆動のテキスト生成は、トレーニングコーパス全体の保存とインデックスを必要とするため、テスト時に非効率である。
本稿では,言語モデリング性能を向上するスパースなプロトタイプサポートセットを自動的に学習する新しい生成モデルを提案する。
実験では,1000倍のメモリ削減を実現しつつ,従来のプロトタイプ駆動型言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-06-29T19:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。