論文の概要: MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition
- arxiv url: http://arxiv.org/abs/2304.00946v1
- Date: Mon, 3 Apr 2023 13:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:29:59.376610
- Title: MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition
- Title(参考訳): MoLo:Few-shot行動認識のためのモーション強化ロングショートコントラスト学習
- Authors: Xiang Wang, Shiwei Zhang, Zhiwu Qing, Changxin Gao, Yingya Zhang, Deli
Zhao, Nong Sang
- Abstract要約: 我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
- 参考スコア(独自算出の注目度): 50.345327516891615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art approaches for few-shot action recognition achieve
promising performance by conducting frame-level matching on learned visual
features. However, they generally suffer from two limitations: i) the matching
procedure between local frames tends to be inaccurate due to the lack of
guidance to force long-range temporal perception; ii) explicit motion learning
is usually ignored, leading to partial information loss. To address these
issues, we develop a Motion-augmented Long-short Contrastive Learning (MoLo)
method that contains two crucial components, including a long-short contrastive
objective and a motion autodecoder. Specifically, the long-short contrastive
objective is to endow local frame features with long-form temporal awareness by
maximizing their agreement with the global token of videos belonging to the
same class. The motion autodecoder is a lightweight architecture to reconstruct
pixel motions from the differential features, which explicitly embeds the
network with motion dynamics. By this means, MoLo can simultaneously learn
long-range temporal context and motion cues for comprehensive few-shot
matching. To demonstrate the effectiveness, we evaluate MoLo on five standard
benchmarks, and the results show that MoLo favorably outperforms recent
advanced methods. The source code is available at
https://github.com/alibaba-mmai-research/MoLo.
- Abstract(参考訳): 学習した視覚特徴のフレームレベルでのマッチングを行うことで、有望な性能を実現するための最先端のアクション認識手法
しかし、一般的には2つの制限がある。
一 長期的時間的知覚を強制する指導の欠如により、局所的フレーム間の一致手続が不正確になる傾向があること。
二 明示的な動作学習は、通常無視され、部分的な情報を失うこと。
これらの問題に対処するために、長短コントラスト目標と運動オートデコーダを含む2つの重要なコンポーネントを含む運動強化長短コントラスト学習法(MoLo)を開発した。
特に、ロングショートのコントラストの目的は、同じクラスに属するビデオのグローバルトークンとの合意を最大化することで、ロングフォームな時間認識を伴うローカルフレームの特徴を付与することである。
motion autodecoderは、異なる特徴からピクセルの動きを再構築する軽量なアーキテクチャで、ネットワークにモーションダイナミクスを明示的に組み込む。
これにより、MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習し、包括的な数ショットマッチングを行うことができる。
提案手法の有効性を示すために,MoLoを5つの標準ベンチマークで評価し,MoLoが最近の先進的手法よりも良好に優れていることを示す。
ソースコードはhttps://github.com/alibaba-mmai-research/moloで入手できる。
関連論文リスト
- Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - MotionTrack: Learning Robust Short-term and Long-term Motions for
Multi-Object Tracking [56.92165669843006]
本研究では,短時間から長期間の軌跡を関連づける統合フレームワークで,堅牢な短期・長期動作を学習するMotionTrackを提案する。
密集した群集に対して,各ターゲットの複雑な動きを推定できる,短時間の軌跡から相互作用認識動作を学習するための新しい対話モジュールを設計する。
極端なオクルージョンのために、ターゲットの履歴軌跡から信頼できる長期動作を学習するための新しいRefind Moduleを構築し、中断された軌跡とそれに対応する検出とを関連付けることができる。
論文 参考訳(メタデータ) (2023-03-18T12:38:33Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Long-Short Temporal Modeling for Efficient Action Recognition [32.159784061961886]
本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。
短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
論文 参考訳(メタデータ) (2021-06-30T02:54:13Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。