論文の概要: Video-to-Task Learning via Motion-Guided Attention for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2411.11335v1
- Date: Mon, 18 Nov 2024 07:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:03.592248
- Title: Video-to-Task Learning via Motion-Guided Attention for Few-Shot Action Recognition
- Title(参考訳): Few-Shot行動認識のためのモーションガイドによるビデオ・ツー・タスク学習
- Authors: Hanyu Guo, Wanchuan Yu, Suzhou Que, Kaiwen Du, Yan Yan, Hanzi Wang,
- Abstract要約: 空間的・時間的関係モデリングにより,行動認識の精度は著しく向上した。
近年、クラスプロトタイプを用いてタスク固有の特徴を学習しているが、タスクレベルで異なるビデオ間の関係を見落としている。
そこで本研究では,DMGAL(Dual Motion-Guided Attention Learning)法を提案する。
- 参考スコア(独自算出の注目度): 25.646615236717196
- License:
- Abstract: In recent years, few-shot action recognition has achieved remarkable performance through spatio-temporal relation modeling. Although a wide range of spatial and temporal alignment modules have been proposed, they primarily address spatial or temporal misalignments at the video level, while the spatio-temporal relationships across different videos at the task level remain underexplored. Recent studies utilize class prototypes to learn task-specific features but overlook the spatio-temporal relationships across different videos at the task level, especially in the spatial dimension, where these relationships provide rich information. In this paper, we propose a novel Dual Motion-Guided Attention Learning method (called DMGAL) for few-shot action recognition, aiming to learn the spatio-temporal relationships from the video-specific to the task-specific level. To achieve this, we propose a carefully designed Motion-Guided Attention (MGA) method to identify and correlate motion-related region features from the video level to the task level. Specifically, the Self Motion-Guided Attention module (S-MGA) achieves spatio-temporal relation modeling at the video level by identifying and correlating motion-related region features between different frames within a video. The Cross Motion-Guided Attention module (C-MGA) identifies and correlates motion-related region features between frames of different videos within a specific task to achieve spatio-temporal relationships at the task level. This approach enables the model to construct class prototypes that fully incorporate spatio-temporal relationships from the video-specific level to the task-specific level. We validate the effectiveness of our DMGAL method by employing both fully fine-tuning and adapter-tuning paradigms. The models developed using these paradigms are termed DMGAL-FT and DMGAL-Adapter, respectively.
- Abstract(参考訳): 近年,時空間関係モデリングにより,アクション認識の精度は著しく向上している。
広い範囲の空間的・時間的アライメントモジュールが提案されているが、主にビデオレベルでの空間的・時間的ミスアライメントに対処する一方で、タスクレベルでの異なるビデオ間の時空間関係は未解明のままである。
近年の研究では、クラスプロトタイプを用いてタスク固有の特徴を学習しているが、これらの関係が豊富な情報を提供する空間的次元において、タスクレベルでの異なるビデオ間の時空間的関係を見落としている。
本稿では,映像固有レベルからタスク固有レベルへの時空間的関係の学習を目的とした,アクション認識のための新しいDMGAL(Dual Motion-Guided Attention Learning)を提案する。
そこで本研究では,映像レベルからタスクレベルまでの動作関連領域の特徴を識別・相関するMGA(Motion-Guided Attention)手法を提案する。
具体的には、S-MGA(Self Motion-Guided Attention Module)は、動画内の異なるフレーム間の動き関連領域の特徴を特定し、関連付けることにより、ビデオレベルでの時空間関係モデリングを実現する。
Cross Motion-Guided Attention Module (C-MGA)は、特定のタスク内で異なるビデオのフレーム間の動作関連領域の特徴を特定し、関連付け、タスクレベルで時空間関係を達成する。
このアプローチにより、ビデオ固有レベルからタスク固有レベルまでの時空間関係を完全に組み込んだクラスプロトタイプを構築することができる。
完全微調整とアダプタ調整の両方のパラダイムを用いてDMGAL法の有効性を検証する。
これらのパラダイムを用いて開発されたモデルは、それぞれDMGAL-FTとDMGAL-Adapterと呼ばれる。
関連論文リスト
- On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Behavior Recognition Based on the Integration of Multigranular Motion
Features [17.052997301790693]
マルチグラニュラ(IMG)運動特徴の統合に基づく新しい行動認識手法を提案する。
我々は,HMDB51,Something,UCF101など,いくつかの行動認識ベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T02:05:26Z) - Exploring Discontinuity for Video Frame Interpolation [7.061238509514182]
本稿では,既存のディープラーニングベースのVFIアーキテクチャを不連続動作に対して堅牢にするための3つの手法を提案する。
まず、フィギュア・テキスト・ミキシング(FTM)と呼ばれる新しいデータ拡張戦略によって、モデルが不連続な動きを学習できるようにする。
第二に,連続した動きと不連続な動きの領域を密に区別する不連続写像 (D-map) と呼ばれる写像を予測する,単純だが効果的なモジュールを提案する。
論文 参考訳(メタデータ) (2022-02-15T10:17:02Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。