論文の概要: Taylor Videos for Action Recognition
- arxiv url: http://arxiv.org/abs/2402.03019v4
- Date: Fri, 10 May 2024 14:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:07:31.301782
- Title: Taylor Videos for Action Recognition
- Title(参考訳): アクション認識のためのTaylor Videos
- Authors: Lei Wang, Xiuyuan Yuan, Tom Gedeon, Liang Zheng,
- Abstract要約: Taylorビデオは、Taylorフレームと呼ばれるそれぞれのフレームにおける支配的な動きをハイライトする新しいビデオフォーマットだ。
テイラー級数 (Taylor series) は、ある点における関数を重要な項で近似するテイラー級数 (Taylor series) にちなむ。
テイラービデオは2D CNN, 3D CNN, トランスフォーマーなど, 一般的なアーキテクチャへの効果的なインプットであることを示す。
- 参考スコア(独自算出の注目度): 15.728388101131056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively extracting motions from video is a critical and long-standing problem for action recognition. This problem is very challenging because motions (i) do not have an explicit form, (ii) have various concepts such as displacement, velocity, and acceleration, and (iii) often contain noise caused by unstable pixels. Addressing these challenges, we propose the Taylor video, a new video format that highlights the dominate motions (e.g., a waving hand) in each of its frames named the Taylor frame. Taylor video is named after Taylor series, which approximates a function at a given point using important terms. In the scenario of videos, we define an implicit motion-extraction function which aims to extract motions from video temporal block. In this block, using the frames, the difference frames, and higher-order difference frames, we perform Taylor expansion to approximate this function at the starting frame. We show the summation of the higher-order terms in the Taylor series gives us dominant motion patterns, where static objects, small and unstable motions are removed. Experimentally we show that Taylor videos are effective inputs to popular architectures including 2D CNNs, 3D CNNs, and transformers. When used individually, Taylor videos yield competitive action recognition accuracy compared to RGB videos and optical flow. When fused with RGB or optical flow videos, further accuracy improvement is achieved. Additionally, we apply Taylor video computation to human skeleton sequences, resulting in Taylor skeleton sequences that outperform the use of original skeletons for skeleton-based action recognition.
- Abstract(参考訳): 映像から効果的に動きを抽出することは、行動認識にとって決定的かつ長期にわたる問題である。
この問題は運動のため非常に難しい
(i)明示的な形式を持たないこと。
(二)変位、速度、加速度、その他様々な概念
(iii)不安定な画素によるノイズがしばしば含まれる。
これらの課題に対処するために,Taylor フレームと呼ばれる各フレームにおける支配的な動き(例えば手を振っている手)をハイライトする新しいビデオフォーマットであるTaylor ビデオを提案する。
テイラー級数 (Taylor series) は、ある点における関数を重要な項で近似するテイラー級数 (Taylor series) にちなむ。
ビデオのシナリオでは、ビデオの時間ブロックから動きを抽出することを目的とした暗黙の動作抽出関数を定義する。
このブロックでは、フレーム、差分フレーム、高階差分フレームを用いてテイラー展開を行い、この関数を開始フレームで近似する。
テイラー級数における高次項の和は、静的な物体、小さく不安定な動きを除去する支配的な動きパターンを与える。
実験により,Taylorビデオは2次元CNN,3次元CNN,トランスフォーマーなどの一般的なアーキテクチャへの効果的なインプットであることを示す。
個別に使用すると、テイラービデオはRGBビデオや光学フローと比較して、競争力のある動作認識精度が得られる。
RGBや光フロービデオと融合すると、さらなる精度向上が達成される。
さらに、Taylorのビデオ計算を人間の骨格配列に適用し、結果としてTaylorの骨格配列は、骨格に基づく行動認識におけるオリジナルの骨格の使用よりも優れている。
関連論文リスト
- Motion meets Attention: Video Motion Prompts [34.429192862783054]
本研究では,学習可能な傾きとシフトパラメータを付加したSigmoid関数を,動作信号を活性化・変調するアテンション機構として提案する。
このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。
我々はこのプロセスをモーションプロンプト層として形式化し、正規化項をロス関数に組み込んで、より良いモーションプロンプトを学習する。
論文 参考訳(メタデータ) (2024-07-03T14:59:46Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Taylor Swift: Taylor Driven Temporal Modeling for Swift Future Frame
Prediction [22.57791389884491]
与えられた入力ビデオに対してTaylor系列の高次項を推定することを学ぶ新しい畳み込みニューラルネットワークであるTayloSwiftNetを紹介する。
TayloSwiftNetは、1つのフォワードパスで任意の将来のフレームを素早く予測し、オンザフライで時間分解能を変更することができる。
論文 参考訳(メタデータ) (2021-10-27T12:46:17Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers [77.52828273633646]
暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマー用の新しいドロップインブロックを提案する。
また,入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
我々は、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2021-06-09T21:16:05Z) - Taylor saves for later: disentanglement for video prediction using
Taylor representation [5.658571172210811]
ビデオフレームにおけるTaylor特徴と残像をアンタングル化する2分岐Seq-to-seqディープモデルを提案する。
TaylorCell はビデオフレームの高次元特徴を有限テイラー級数に拡張し、潜在法則を記述する。
MCUは過去のフレームの情報をすべて蒸留し、予測されたテイラー特徴をTPUから補正する。
論文 参考訳(メタデータ) (2021-05-24T01:59:21Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。