論文の概要: Two-stream joint matching method based on contrastive learning for
few-shot action recognition
- arxiv url: http://arxiv.org/abs/2401.04150v1
- Date: Mon, 8 Jan 2024 13:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:47:39.566120
- Title: Two-stream joint matching method based on contrastive learning for
few-shot action recognition
- Title(参考訳): ショット動作認識のためのコントラスト学習に基づく2ストリーム関節マッチング法
- Authors: Long Deng, Ziqiang Li, Bingxin Zhou, Zhongming Chen, Ao Li and Yongxin
Ge
- Abstract要約: コントラスト学習(TSJM)に基づく2ストリーム共同マッチング手法を提案する。
MCLの目的は、モーダル間の相互情報関係を広範囲に調査することである。
JMMは、上記のビデオマッチング問題を同時に解決することを目的としている。
- 参考スコア(独自算出の注目度): 6.657975899342652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although few-shot action recognition based on metric learning paradigm has
achieved significant success, it fails to address the following issues: (1)
inadequate action relation modeling and underutilization of multi-modal
information; (2) challenges in handling video matching problems with different
lengths and speeds, and video matching problems with misalignment of video
sub-actions. To address these issues, we propose a Two-Stream Joint Matching
method based on contrastive learning (TSJM), which consists of two modules:
Multi-modal Contrastive Learning Module (MCL) and Joint Matching Module (JMM).
The objective of the MCL is to extensively investigate the inter-modal mutual
information relationships, thereby thoroughly extracting modal information to
enhance the modeling of action relationships. The JMM aims to simultaneously
address the aforementioned video matching problems. The effectiveness of the
proposed method is evaluated on two widely used few shot action recognition
datasets, namely, SSv2 and Kinetics. Comprehensive ablation experiments are
also conducted to substantiate the efficacy of our proposed approach.
- Abstract(参考訳): メカニカルラーニングのパラダイムに基づくアクション認識は大きな成果を上げているが,(1) アクション関係モデリングの不十分さ,およびマルチモーダル情報の未活用,(2) 長さや速度の異なるビデオマッチング問題への対処,およびビデオサブアクションの不一致によるビデオマッチング問題などに対処できない。
これらの課題に対処するために,マルチモーダルコントラスト学習モジュール (MCL) とジョイントマッチングモジュール (JMM) の2つのモジュールからなるコントラッシブラーニング (TSJM) に基づく2ストリームのジョイントマッチング手法を提案する。
MCLの目的は、モーダル間の相互情報関係を広範囲に調査し、モーダル情報を徹底的に抽出し、アクション関係のモデリングを強化することである。
JMMは、上記のビデオマッチング問題を同時に解決することを目的としている。
提案手法の有効性を,SSv2 と Kinetics の2種類のショットアクション認識データセットを用いて評価した。
また,提案手法の有効性を検証するため,包括的アブレーション実験を行った。
関連論文リスト
- Bridging the Modality Gap: Dimension Information Alignment and Sparse Spatial Constraint for Image-Text Matching [10.709744162565274]
本稿では2つの側面からモダリティギャップを橋渡しするDIASと呼ばれる新しい手法を提案する。
この方法はFlickr30kとMSCOCOベンチマークで4.3%-10.2%のrSum改善を実現している。
論文 参考訳(メタデータ) (2024-10-22T09:37:29Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - MRI-based Multi-task Decoupling Learning for Alzheimer's Disease
Detection and MMSE Score Prediction: A Multi-site Validation [9.427540028148963]
MRIによる高齢者健診におけるアルツハイマー病(AD)の正確な検出とMMSEスコアの予測は重要な課題である
これら2つのタスクに関する従来の手法のほとんどは、シングルタスク学習に基づいており、それらの相関を考慮することは滅多にない。
本稿では,AD検出とMMSEスコア予測のためのMRIに基づくマルチタスク分離学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-02T09:19:18Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。