論文の概要: Dynamic Sampling Networks for Efficient Action Recognition in Videos
- arxiv url: http://arxiv.org/abs/2006.15560v1
- Date: Sun, 28 Jun 2020 09:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 02:41:18.874225
- Title: Dynamic Sampling Networks for Efficient Action Recognition in Videos
- Title(参考訳): ビデオにおける効果的な行動認識のための動的サンプリングネットワーク
- Authors: Yin-Dong Zheng, Zhaoyang Liu, Tong Lu, Limin Wang
- Abstract要約: Em Dynamic Smpling Networks (DSN) と呼ばれるビデオにおける行動認識のための新しいフレームワークを提案する。
DSNは、サンプリングモジュールと分類モジュールから構成されており、その目的は、どのクリップをオンザフライで選択し、どのクリップを保持して、これらの選択されたクリップに基づいてアクション認識を行うかを訓練するサンプリングポリシーを学習することである。
UCF101, HMDB51, THUMOS14, ActivityNet v1.3の4つのアクション認識データセット上で, DSNフレームワークのさまざまな側面について検討した。
- 参考スコア(独自算出の注目度): 43.51012099839094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing action recognition methods are mainly based on clip-level
classifiers such as two-stream CNNs or 3D CNNs, which are trained from the
randomly selected clips and applied to densely sampled clips during testing.
However, this standard setting might be suboptimal for training classifiers and
also requires huge computational overhead when deployed in practice. To address
these issues, we propose a new framework for action recognition in videos,
called {\em Dynamic Sampling Networks} (DSN), by designing a dynamic sampling
module to improve the discriminative power of learned clip-level classifiers
and as well increase the inference efficiency during testing. Specifically, DSN
is composed of a sampling module and a classification module, whose objective
is to learn a sampling policy to on-the-fly select which clips to keep and
train a clip-level classifier to perform action recognition based on these
selected clips, respectively. In particular, given an input video, we train an
observation network in an associative reinforcement learning setting to
maximize the rewards of the selected clips with a correct prediction. We
perform extensive experiments to study different aspects of the DSN framework
on four action recognition datasets: UCF101, HMDB51, THUMOS14, and ActivityNet
v1.3. The experimental results demonstrate that DSN is able to greatly improve
the inference efficiency by only using less than half of the clips, which can
still obtain a slightly better or comparable recognition accuracy to the
state-of-the-art approaches.
- Abstract(参考訳): 既存の動作認識法は主に、2ストリームCNNや3DCNNのようなクリップレベルの分類器に基づいており、ランダムに選択されたクリップからトレーニングされ、テスト中に密集したサンプルクリップに適用される。
しかし、この標準設定は分類器の訓練に最適であり、実際にデプロイする際には膨大な計算オーバーヘッドを必要とする。
これらの問題に対処するために,我々は,学習クリップレベルの分類器の識別能力を向上させる動的サンプリングモジュールの設計と,テスト中の推論効率の向上により,映像における行動認識のための新しいフレームワーク「dsn」を提案する。
具体的には、サンプリングモジュールと、これらの選択されたクリップに基づいて、クリップレベルの分類器を保持・訓練するクリップをオンザフライで選択するサンプリングポリシーを学ぶことを目的とした分類モジュールからなる。
特に,入力映像を与えられた場合,観測ネットワークを連想強化学習設定で訓練し,選択したクリップの報奨を適切な予測で最大化する。
UCF101, HMDB51, THUMOS14, ActivityNet v1.3の4つの行動認識データセット上で, DSNフレームワークのさまざまな側面を研究するための広範な実験を行った。
実験結果から,DSNは半分未満のクリップのみを用いることで推論効率を大幅に向上できることが示された。
関連論文リスト
- Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Temporal Contrastive Learning with Curriculum [19.442685015494316]
ConCurは、カリキュラム学習を用いて動的サンプリング戦略を課すコントラスト型ビデオ表現学習法である。
提案手法は,UCF101とHMDB51という2つの一般的な行動認識データセットを用いて実験を行い,その有効性を実証した。
論文 参考訳(メタデータ) (2022-09-02T00:12:05Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Active Learning for Deep Visual Tracking [51.5063680734122]
畳み込みニューラルネットワーク(CNN)は近年,単一目標追跡タスクに成功している。
本稿では,ディープ・ビジュアル・トラッキングのためのアクティブ・ラーニング手法を提案する。
アクティブラーニングの指導のもと、トレーニングされた深層CNNモデルに基づくトラッカーは、ラベリングコストを低減しつつ、競合的なトラッキング性能を達成することができる。
論文 参考訳(メタデータ) (2021-10-17T11:47:56Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。