論文の概要: Taylor Videos for Action Recognition
- arxiv url: http://arxiv.org/abs/2402.03019v1
- Date: Mon, 5 Feb 2024 14:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:58:15.131731
- Title: Taylor Videos for Action Recognition
- Title(参考訳): アクション認識のためのTaylor Videos
- Authors: Lei Wang and Xiuyuan Yuan and Tom Gedeon and Liang Zheng
- Abstract要約: Taylorビデオは、Taylorフレームと呼ばれるそれぞれのフレームにおける支配的な動きをハイライトする新しいビデオフォーマットだ。
テイラー級数 (Taylor series) は、ある点における関数を重要な項で近似するテイラー級数 (Taylor series) にちなむ。
テイラービデオは2D CNN, 3D CNN, トランスフォーマーなど, 一般的なアーキテクチャへの効果的なインプットであることを示す。
- 参考スコア(独自算出の注目度): 17.182134080788547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively extracting motions from video is a critical and long-standing
problem for action recognition. This problem is very challenging because
motions (i) do not have an explicit form, (ii) have various concepts such as
displacement, velocity, and acceleration, and (iii) often contain noise caused
by unstable pixels. Addressing these challenges, we propose the Taylor video, a
new video format that highlights the dominate motions (e.g., a waving hand) in
each of its frames named the Taylor frame. Taylor video is named after Taylor
series, which approximates a function at a given point using important terms.
In the scenario of videos, we define an implicit motion-extraction function
which aims to extract motions from video temporal block. In this block, using
the frames, the difference frames, and higher-order difference frames, we
perform Taylor expansion to approximate this function at the starting frame. We
show the summation of the higher-order terms in the Taylor series gives us
dominant motion patterns, where static objects, small and unstable motions are
removed. Experimentally we show that Taylor videos are effective inputs to
popular architectures including 2D CNNs, 3D CNNs, and transformers. When used
individually, Taylor videos yield competitive action recognition accuracy
compared to RGB videos and optical flow. When fused with RGB or optical flow
videos, further accuracy improvement is achieved.
- Abstract(参考訳): 映像から運動を効果的に抽出することは、アクション認識にとって重要かつ長期にわたる問題である。
この問題は運動のため非常に難しい
(i)明示的な形式を持たないこと。
(ii)変位、速度、加速度など様々な概念を持ち、
(iii)不安定な画素によるノイズがしばしば含まれる。
これらの課題に対処するために,我々はテイラーフレームと呼ばれる各フレームにおける支配的な動き(例えば手を振る)を強調する新しいビデオフォーマットであるtaylor videoを提案する。
テイラー級数 (Taylor series) は、ある点における関数を重要な項で近似するテイラー級数 (Taylor series) にちなむ。
ビデオのシナリオでは,映像時間ブロックから動きを抽出することを目的とした暗黙的モーション抽出関数を定義する。
このブロックでは、フレーム、差分フレーム、高次差分フレームを用いて、開始フレームでこの関数を近似するためにテイラー展開を行う。
テイラー級数における高次項の和は、静的な物体が小さく不安定な動きを取り除かれるような支配的な動きパターンを与える。
実験により,Taylorビデオは2次元CNN,3次元CNN,トランスフォーマーなどの一般的なアーキテクチャへの効果的な入力であることを示す。
個別に使用すると、テイラービデオはRGBビデオや光学フローと比較して、競合する動作認識精度が得られる。
RGBや光フロービデオと融合すると、さらなる精度向上が達成される。
関連論文リスト
- Unfolding Videos Dynamics via Taylor Expansion [5.723852805622308]
ビデオの自己教師型動的学習戦略について紹介する: インスタンス識別のためのビデオ時間差分法(ViDiDi)
ViDiDiは、フレームシーケンスの時間的デリバティブのさまざまな順序を通して、ビデオの異なる側面を観察する。
ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを学習する。
論文 参考訳(メタデータ) (2024-09-04T01:41:09Z) - Motion meets Attention: Video Motion Prompts [34.429192862783054]
フレーム差分マップからの動き信号を変調するアテンション機構として,学習可能な傾きとシフトパラメータを持つ修正シグモイド関数を提案する。
このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。
SlowGymやX3D、Timeformerといったモデルに、当社の軽量でプラグアンドプレイのモーションプロンプト層がシームレスに統合されていることが分かりました。
論文 参考訳(メタデータ) (2024-07-03T14:59:46Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Taylor Swift: Taylor Driven Temporal Modeling for Swift Future Frame
Prediction [22.57791389884491]
与えられた入力ビデオに対してTaylor系列の高次項を推定することを学ぶ新しい畳み込みニューラルネットワークであるTayloSwiftNetを紹介する。
TayloSwiftNetは、1つのフォワードパスで任意の将来のフレームを素早く予測し、オンザフライで時間分解能を変更することができる。
論文 参考訳(メタデータ) (2021-10-27T12:46:17Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers [77.52828273633646]
暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマー用の新しいドロップインブロックを提案する。
また,入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
我々は、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2021-06-09T21:16:05Z) - Taylor saves for later: disentanglement for video prediction using
Taylor representation [5.658571172210811]
ビデオフレームにおけるTaylor特徴と残像をアンタングル化する2分岐Seq-to-seqディープモデルを提案する。
TaylorCell はビデオフレームの高次元特徴を有限テイラー級数に拡張し、潜在法則を記述する。
MCUは過去のフレームの情報をすべて蒸留し、予測されたテイラー特徴をTPUから補正する。
論文 参考訳(メタデータ) (2021-05-24T01:59:21Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。