論文の概要: MotionSqueeze: Neural Motion Feature Learning for Video Understanding
- arxiv url: http://arxiv.org/abs/2007.09933v1
- Date: Mon, 20 Jul 2020 08:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:48:23.345956
- Title: MotionSqueeze: Neural Motion Feature Learning for Video Understanding
- Title(参考訳): MotionSqueeze:ビデオ理解のためのニューラルモーション特徴学習
- Authors: Heeseung Kwon, Manjin Kim, Suha Kwak, and Minsu Cho
- Abstract要約: モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。
本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。
提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
- 参考スコア(独自算出の注目度): 46.82376603090792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion plays a crucial role in understanding videos and most state-of-the-art
neural models for video classification incorporate motion information typically
using optical flows extracted by a separate off-the-shelf method. As the
frame-by-frame optical flows require heavy computation, incorporating motion
information has remained a major computational bottleneck for video
understanding. In this work, we replace external and heavy computation of
optical flows with internal and light-weight learning of motion features. We
propose a trainable neural module, dubbed MotionSqueeze, for effective motion
feature extraction. Inserted in the middle of any neural network, it learns to
establish correspondences across frames and convert them into motion features,
which are readily fed to the next downstream layer for better prediction. We
demonstrate that the proposed method provides a significant gain on four
standard benchmarks for action recognition with only a small amount of
additional cost, outperforming the state of the art on
Something-Something-V1&V2 datasets.
- Abstract(参考訳): 動画分類のための最先端のニューラルモデルでは、通常、別個のオフ・ザ・棚法で抽出された光学的流れを用いて、動き情報が組み込まれている。
フレーム・バイ・フレームの光学フローは重い計算を必要とするため、動画理解のための重要な計算ボトルネックとなっている。
本研究では,光学フローの外部計算と重計算を,動作特徴の学習と軽量学習に置き換える。
運動特徴抽出のためのトレーニング可能なニューラルモジュールであるMotionSqueezeを提案する。
ニューラルネットワークの中央に挿入され、フレーム間の対応性を確立し、それらをモーション機能に変換することを学び、それを次の下流層に簡単に送って予測を改善する。
提案手法は,アクション認識のための標準的な4つのベンチマークに対して,少量の追加コストで大幅に向上することを示し,Something-V1&V2データセットにおける技術状況よりも優れていることを示した。
関連論文リスト
- Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。
コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:59:40Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Moving Object Proposals with Deep Learned Optical Flow for Video Object
Segmentation [1.551271936792451]
我々は、移動オブジェクト提案(MOP)を得るために、ニューラルネットワークの最先端アーキテクチャを提案する。
まず、教師なし畳み込みニューラルネットワーク(UnFlow)をトレーニングし、光学的フロー推定を生成する。
次に、光学フローネットの出力を、完全に畳み込みのSegNetモデルに描画する。
論文 参考訳(メタデータ) (2024-02-14T01:13:55Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - Self-Supervised Motion Magnification by Backpropagating Through Optical
Flow [16.80592879244362]
本稿では,映像中の微妙な動きを拡大する自己教師型手法を提案する。
我々は、その新しい光学フローが所望の量でスケールするようにビデオを操作する。
本稿では、生成した映像の光学的流れを推定し、与えられた拡大係数から逸脱した場合の距離をペナルティ化する損失関数を提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:51Z) - Dynamic Appearance: A Video Representation for Action Recognition with
Joint Training [11.746833714322154]
本稿では,映像中の動きに関連する外観情報を要約した新しい概念である動的外観(DA)を紹介する。
生のビデオデータからダイナミックな外観を抽出する手法を,効率的な映像理解の手段として検討する。
4つの行動認識ベンチマークにおいて、広範囲な実験結果を提供する。
論文 参考訳(メタデータ) (2022-11-23T07:16:16Z) - EM-driven unsupervised learning for efficient motion segmentation [3.5232234532568376]
本稿では,光学的流れからの動作分割のためのCNNに基づく完全教師なし手法を提案する。
本研究では,移動分割ニューラルネットワークの損失関数とトレーニング手順を活用するために,期待最大化(EM)フレームワークを利用する。
提案手法は, 教師なし手法よりも優れ, 効率的である。
論文 参考訳(メタデータ) (2022-01-06T14:35:45Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。