論文の概要: Multi-view Distillation based on Multi-modal Fusion for Few-shot Action
Recognition(CLIP-$\mathrm{M^2}$DF)
- arxiv url: http://arxiv.org/abs/2401.08345v1
- Date: Tue, 16 Jan 2024 13:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 13:59:50.491293
- Title: Multi-view Distillation based on Multi-modal Fusion for Few-shot Action
Recognition(CLIP-$\mathrm{M^2}$DF)
- Title(参考訳): Few-shot Action Recognition(CLIP-$\mathrm{M^2}$DF)のためのマルチモーダルフュージョンに基づく多視点蒸留
- Authors: Fei Guo, YiKang Wang, Han Qi, WenPing Jin, Li Zhu
- Abstract要約: マルチモーダル核融合に基づく多視点蒸留法を提案する。
各視点において、視覚的・局所的時間的文脈と一貫した情報としてプロンプト埋め込みを融合する。
- 参考スコア(独自算出の注目度): 11.147444332748792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, few-shot action recognition has attracted increasing
attention. It generally adopts the paradigm of meta-learning. In this field,
overcoming the overlapping distribution of classes and outliers is still a
challenging problem based on limited samples. We believe the combination of
Multi-modal and Multi-view can improve this issue depending on information
complementarity. Therefore, we propose a method of Multi-view Distillation
based on Multi-modal Fusion. Firstly, a Probability Prompt Selector for the
query is constructed to generate probability prompt embedding based on the
comparison score between the prompt embeddings of the support and the visual
embedding of the query. Secondly, we establish a Multi-view. In each view, we
fuse the prompt embedding as consistent information with visual and the global
or local temporal context to overcome the overlapping distribution of classes
and outliers. Thirdly, we perform the distance fusion for the Multi-view and
the mutual distillation of matching ability from one to another, enabling the
model to be more robust to the distribution bias. Our code is available at the
URL: \url{https://github.com/cofly2014/MDMF}.
- Abstract(参考訳): 近年、数発のアクション認識が注目されている。
一般的にメタラーニングのパラダイムを採用する。
この分野では、クラスと外れ値の重複分布を克服することは、限られたサンプルに基づいても難しい問題である。
マルチモーダルとマルチビューの組み合わせは,情報の相補性に応じてこの問題を改善することができると考えている。
そこで本研究ではマルチモーダル融合に基づく多視点蒸留法を提案する。
まず、クエリ用の確率確率プロンプトセレクタを構築し、サポートの迅速な埋め込みとクエリの視覚的な埋め込みの比較スコアに基づいて確率プロンプト埋め込みを生成する。
第2に,マルチビューを確立する。
各視点において、クラスと外れ値の重なり合う分布を克服するために、視覚的および局所的な時間的文脈と一貫した情報としてプロンプト埋め込みを融合する。
第3に,マルチビューのための距離融合とマッチング能力の相互蒸留を行い,分散バイアスに対してより頑健なモデルを実現する。
私たちのコードはurlで利用可能です。 \url{https://github.com/cofly2014/mdmf}。
関連論文リスト
- Towards Generalized Multi-stage Clustering: Multi-view Self-distillation [10.368796552760571]
既存のマルチステージクラスタリング手法は、独立して複数のビューから健全な特徴を学習し、クラスタリングタスクを実行する。
本稿では,多視点自己蒸留(DistilMVC)を導入し,ラベル分布の暗黒知識を抽出する多段階深層MVCフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-29T03:35:34Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations [27.855467591358018]
マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
論文 参考訳(メタデータ) (2022-10-31T16:14:18Z) - Multi-view Low-rank Preserving Embedding: A Novel Method for Multi-view
Representation [11.91574721055601]
本稿では,MvLPE(Multi-view Low-rank Preserving Embedding)という新しい多視点学習手法を提案する。
異なるビューを1つのセントロイドビューに統合し、インスタンス間の距離や類似性行列に基づいて、不一致項を最小化する。
6つのベンチマークデータセットの実験では、提案手法がそれよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-06-14T12:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。