論文の概要: Multi-view Distillation based on Multi-modal Fusion for Few-shot Action
Recognition(CLIP-$\mathrm{M^2}$DF)
- arxiv url: http://arxiv.org/abs/2401.08345v1
- Date: Tue, 16 Jan 2024 13:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 13:59:50.491293
- Title: Multi-view Distillation based on Multi-modal Fusion for Few-shot Action
Recognition(CLIP-$\mathrm{M^2}$DF)
- Title(参考訳): Few-shot Action Recognition(CLIP-$\mathrm{M^2}$DF)のためのマルチモーダルフュージョンに基づく多視点蒸留
- Authors: Fei Guo, YiKang Wang, Han Qi, WenPing Jin, Li Zhu
- Abstract要約: マルチモーダル核融合に基づく多視点蒸留法を提案する。
各視点において、視覚的・局所的時間的文脈と一貫した情報としてプロンプト埋め込みを融合する。
- 参考スコア(独自算出の注目度): 11.147444332748792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, few-shot action recognition has attracted increasing
attention. It generally adopts the paradigm of meta-learning. In this field,
overcoming the overlapping distribution of classes and outliers is still a
challenging problem based on limited samples. We believe the combination of
Multi-modal and Multi-view can improve this issue depending on information
complementarity. Therefore, we propose a method of Multi-view Distillation
based on Multi-modal Fusion. Firstly, a Probability Prompt Selector for the
query is constructed to generate probability prompt embedding based on the
comparison score between the prompt embeddings of the support and the visual
embedding of the query. Secondly, we establish a Multi-view. In each view, we
fuse the prompt embedding as consistent information with visual and the global
or local temporal context to overcome the overlapping distribution of classes
and outliers. Thirdly, we perform the distance fusion for the Multi-view and
the mutual distillation of matching ability from one to another, enabling the
model to be more robust to the distribution bias. Our code is available at the
URL: \url{https://github.com/cofly2014/MDMF}.
- Abstract(参考訳): 近年、数発のアクション認識が注目されている。
一般的にメタラーニングのパラダイムを採用する。
この分野では、クラスと外れ値の重複分布を克服することは、限られたサンプルに基づいても難しい問題である。
マルチモーダルとマルチビューの組み合わせは,情報の相補性に応じてこの問題を改善することができると考えている。
そこで本研究ではマルチモーダル融合に基づく多視点蒸留法を提案する。
まず、クエリ用の確率確率プロンプトセレクタを構築し、サポートの迅速な埋め込みとクエリの視覚的な埋め込みの比較スコアに基づいて確率プロンプト埋め込みを生成する。
第2に,マルチビューを確立する。
各視点において、クラスと外れ値の重なり合う分布を克服するために、視覚的および局所的な時間的文脈と一貫した情報としてプロンプト埋め込みを融合する。
第3に,マルチビューのための距離融合とマッチング能力の相互蒸留を行い,分散バイアスに対してより頑健なモデルを実現する。
私たちのコードはurlで利用可能です。 \url{https://github.com/cofly2014/mdmf}。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。
本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。
我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文 参考訳(メタデータ) (2024-07-10T10:13:11Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Towards Generalized Multi-stage Clustering: Multi-view Self-distillation [10.368796552760571]
既存のマルチステージクラスタリング手法は、独立して複数のビューから健全な特徴を学習し、クラスタリングタスクを実行する。
本稿では,多視点自己蒸留(DistilMVC)を導入し,ラベル分布の暗黒知識を抽出する多段階深層MVCフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-29T03:35:34Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations [27.855467591358018]
マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
論文 参考訳(メタデータ) (2022-10-31T16:14:18Z) - Multi-view Low-rank Preserving Embedding: A Novel Method for Multi-view
Representation [11.91574721055601]
本稿では,MvLPE(Multi-view Low-rank Preserving Embedding)という新しい多視点学習手法を提案する。
異なるビューを1つのセントロイドビューに統合し、インスタンス間の距離や類似性行列に基づいて、不一致項を最小化する。
6つのベンチマークデータセットの実験では、提案手法がそれよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-06-14T12:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。