論文の概要: An end-to-end multi-scale network for action prediction in videos
- arxiv url: http://arxiv.org/abs/2301.01216v1
- Date: Sat, 31 Dec 2022 06:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:49:33.339614
- Title: An end-to-end multi-scale network for action prediction in videos
- Title(参考訳): 動画における動作予測のためのエンドツーエンドマルチスケールネットワーク
- Authors: Xiaofa Liu, Jianqin Yin, Yuan Sun, Zhicheng Zhang, Jin Tang
- Abstract要約: エンド・ツー・エンド方式で部分的なビデオのアクション・クラスを予測するための効率的なマルチスケール・ネットワークを開発した。
我々のE2EMSNetは、BIT、HMDB51、UCF101という3つの挑戦的なデータセットで評価されている。
- 参考スコア(独自算出の注目度): 31.967024536359908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we develop an efficient multi-scale network to predict action
classes in partial videos in an end-to-end manner. Unlike most existing methods
with offline feature generation, our method directly takes frames as input and
further models motion evolution on two different temporal scales.Therefore, we
solve the complexity problems of the two stages of modeling and the problem of
insufficient temporal and spatial information of a single scale. Our proposed
End-to-End MultiScale Network (E2EMSNet) is composed of two scales which are
named segment scale and observed global scale. The segment scale leverages
temporal difference over consecutive frames for finer motion patterns by
supplying 2D convolutions. For observed global scale, a Long Short-Term Memory
(LSTM) is incorporated to capture motion features of observed frames. Our model
provides a simple and efficient modeling framework with a small computational
cost. Our E2EMSNet is evaluated on three challenging datasets: BIT, HMDB51, and
UCF101. The extensive experiments demonstrate the effectiveness of our method
for action prediction in videos.
- Abstract(参考訳): 本稿では,エンド・ツー・エンド方式で部分映像の動作クラスを予測できる効率的なマルチスケールネットワークを開発した。
既存のオフライン機能生成手法と異なり, フレームを入力とし, 2つの時間スケールでの運動進化をモデル化し, モデリングの2段階の複雑性問題と, 単一スケールの時間的・空間的情報不足の問題を解く。
提案するEnd-to-End MultiScale Network (E2EMSNet) はセグメントスケールと呼ばれる2つのスケールから構成される。
セグメントスケールは、2次元の畳み込みを供給し、より細かい動きパターンのために連続したフレーム上での時間差を利用する。
観測されたグローバルスケールでは、観測されたフレームの運動特徴をキャプチャするためにLong Short-Term Memory (LSTM) が組み込まれている。
我々のモデルは計算コストの少ないシンプルで効率的なモデリングフレームワークを提供する。
我々のE2EMSNetは、BIT、HMDB51、UCF101という3つの挑戦的なデータセットで評価されている。
広範な実験により,映像における行動予測手法の有効性が実証された。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective [26.479602180023125]
LCSM(Linear Complexity Sequence Model)は、線形複雑性を伴う様々なシーケンスモデリング手法を単位とする。
これらのモデルのモデリングプロセスは、拡張、Oscillation、Shrinkの3つの異なるステージに区分する。
異なるステージ設定が言語モデリングおよび検索タスクに与える影響を分析する実験を行う。
論文 参考訳(メタデータ) (2024-05-27T17:38:55Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。