論文の概要: M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition
- arxiv url: http://arxiv.org/abs/2308.03063v1
- Date: Sun, 6 Aug 2023 09:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:50:30.352204
- Title: M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition
- Title(参考訳): M$^3$Net:Few-shot Fine-fine Action Recognitionのためのマルチビューエンコーディング、マッチング、融合
- Authors: Hao Tang, Jun Liu, Shuanglin Yan, Rui Yan, Zechao Li, Jinhui Tang
- Abstract要約: M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
- 参考スコア(独自算出の注目度): 80.21796574234287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the scarcity of manually annotated data required for fine-grained
video understanding, few-shot fine-grained (FS-FG) action recognition has
gained significant attention, with the aim of classifying novel fine-grained
action categories with only a few labeled instances. Despite the progress made
in FS coarse-grained action recognition, current approaches encounter two
challenges when dealing with the fine-grained action categories: the inability
to capture subtle action details and the insufficiency of learning from limited
data that exhibit high intra-class variance and inter-class similarity. To
address these limitations, we propose M$^3$Net, a matching-based framework for
FS-FG action recognition, which incorporates \textit{multi-view encoding},
\textit{multi-view matching}, and \textit{multi-view fusion} to facilitate
embedding encoding, similarity matching, and decision making across multiple
viewpoints. \textit{Multi-view encoding} captures rich contextual details from
the intra-frame, intra-video, and intra-episode perspectives, generating
customized higher-order embeddings for fine-grained data. \textit{Multi-view
matching} integrates various matching functions enabling flexible relation
modeling within limited samples to handle multi-scale spatio-temporal
variations by leveraging the instance-specific, category-specific, and
task-specific perspectives. \textit{Multi-view fusion} consists of
matching-predictions fusion and matching-losses fusion over the above views,
where the former promotes mutual complementarity and the latter enhances
embedding generalizability by employing multi-task collaborative learning.
Explainable visualizations and experimental results on three challenging
benchmarks demonstrate the superiority of M$^3$Net in capturing fine-grained
action details and achieving state-of-the-art performance for FS-FG action
recognition.
- Abstract(参考訳): 微粒な映像理解に必要な手動注釈データが少ないため、少数のラベル付きインスタンスで新規な微粒なアクションカテゴリを分類することを目的として、FS-FGのアクション認識が注目されている。
FSの粗いアクション認識の進歩にもかかわらず、現在のアプローチでは、微妙なアクションの詳細を捉えることができないことと、クラス内のばらつきとクラス間の類似度が高い限られたデータからの学習が不十分である、という2つの課題に直面している。
これらの制約に対処するため,FS-FG アクション認識のためのマッチングベースのフレームワーク M$^3$Net を提案し,複数の視点にまたがるエンコーディング,類似性マッチング,意思決定を容易にするために, \textit{multi-view encoding}, \textit{multi-view matching}, \textit{multi-view fusion} を組み込んだ。
\textit{multi-view encoding} はフレーム内、ビデオ内、およびエピソード内の観点からリッチなコンテキストの詳細をキャプチャし、きめ細かいデータのためにカスタマイズされた高次埋め込みを生成する。
\textit{Multi-view matching}は、限定サンプル内でフレキシブルな関係モデリングを可能にし、インスタンス特化、カテゴリ特化、タスク特化の観点を活用することで、マルチスケールの時空間変動を処理する。
\textit{Multi-view fusion} は上記のビューに対するマッチング予測融合とマッチングロス融合で構成され、前者は相互補完性を促進し、後者はマルチタスク協調学習を用いて埋め込み一般化性を高める。
FS-FG の動作認識において,M$3$Net の微細な動作の詳細を捕捉し,最先端の性能を達成する上での優位性を示す。
関連論文リスト
- VSFormer: Mining Correlations in Flexible View Set for Multi-view 3D Shape Understanding [9.048401253308123]
本稿では,複数の視点に対するフレキシブルな組織と明示的な相関学習について検討する。
我々は,集合内のすべての要素の対関係と高次相関を明示的に捉えるために,emphVSFormerというニブルトランスフォーマーモデルを考案した。
ModelNet40、ScanObjectNN、RGBDなど、さまざまな3D認識データセットの最先端結果に到達している。
論文 参考訳(メタデータ) (2024-09-14T01:48:54Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z) - Fast Multi-view Clustering via Ensembles: Towards Scalability,
Superiority, and Simplicity [63.85428043085567]
本稿では,アンサンブル(FastMICE)アプローチによる高速なマルチビュークラスタリングを提案する。
ランダムなビュー群の概念は、多目的なビューワイズ関係を捉えるために提示される。
FastMICEは、ほぼ線形時間と空間の複雑さを持ち、データセット固有のチューニングは不要である。
論文 参考訳(メタデータ) (2022-03-22T09:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。