論文の概要: Video RWKV:Video Action Recognition Based RWKV
- arxiv url: http://arxiv.org/abs/2411.05636v1
- Date: Fri, 08 Nov 2024 15:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:18.833457
- Title: Video RWKV:Video Action Recognition Based RWKV
- Title(参考訳): ビデオRWKV:ビデオアクション認識に基づくRWKV
- Authors: Zhuowen Yin, Chengru Li, Xingbo Dong,
- Abstract要約: ビデオ理解課題に対処するLSTM CrossRWKVフレームワークを提案する。
クロスRWKVゲートと繰り返し実行を利用することで、LCRは空間的特徴と時間的特徴の両方を効果的にキャプチャする。
これらのアドバンテージにより、LSTMは立ち上がり中のビデオに新しいベンチマークを設定でき、包括的なビデオ分析のためのスケーラブルで効率的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 2.1756721838833792
- License:
- Abstract: To address the challenges of high computational costs and long-distance dependencies in exist ing video understanding methods, such as CNNs and Transformers, this work introduces RWKV to the video domain in a novel way. We propose a LSTM CrossRWKV (LCR) framework, designed for spatiotemporal representation learning to tackle the video understanding task. Specifically, the proposed linear complexity LCR incorporates a novel Cross RWKV gate to facilitate interaction be tween current frame edge information and past features, enhancing the focus on the subject through edge features and globally aggregating inter-frame features over time. LCR stores long-term mem ory for video processing through an enhanced LSTM recurrent execution mechanism. By leveraging the Cross RWKV gate and recurrent execution, LCR effectively captures both spatial and temporal features. Additionally, the edge information serves as a forgetting gate for LSTM, guiding long-term memory management.Tube masking strategy reduces redundant information in food and reduces overfitting.These advantages enable LSTM CrossRWKV to set a new benchmark in video under standing, offering a scalable and efficient solution for comprehensive video analysis. All code and models are publicly available.
- Abstract(参考訳): CNNやTransformersのような既存のビデオ理解手法における高い計算コストと長距離依存の課題に対処するため、この研究はRWKVを新しい方法でビデオ領域に導入する。
本稿では,ビデオ理解課題に取り組むための時空間表現学習のためのLSTM CrossRWKV (LCR) フレームワークを提案する。
具体的には、線形複雑性LCRは、新しいクロスRWKVゲートを組み、現行のフレームエッジ情報と過去の特徴との相互作用を容易にし、エッジ機能を通じて対象にフォーカスを集中させ、時間とともにフレーム間機能をグローバルに集約する。
LCRは、拡張LSTMリカレント実行機構を通じて、ビデオ処理のための長期メムオリーを記憶する。
クロスRWKVゲートと繰り返し実行を利用することで、LCRは空間的特徴と時間的特徴の両方を効果的にキャプチャする。
さらに、エッジ情報はLSTMの忘れ門として機能し、長期記憶管理を導くとともに、食品の余分な情報を減らし、過度な適合を減らし、LSTM CrossRWKVが立ち上がり中のビデオに新たなベンチマークを設定できるようにし、包括的ビデオ分析のためのスケーラブルで効率的なソリューションを提供する。
すべてのコードとモデルが公開されている。
関連論文リスト
- Rolling Shutter Inversion: Bring Rolling Shutter Images to High
Framerate Global Shutter Video [111.08121952640766]
本稿では,RS時相超解問題に対する新しいディープラーニングに基づく解法を提案する。
RSイメージングプロセスの多視点幾何関係を利用して,高フレームレートGS生成を実現する。
提案手法は,高精細で高品質なGS画像系列を生成でき,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-06T16:47:12Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - HSTR-Net: High Spatio-Temporal Resolution Video Generation For Wide Area
Surveillance [4.125187280299246]
本稿では,HSTRビデオ生成における複数のビデオフィードの利用について述べる。
主な目的は、HSLFとLSHFビデオの融合によるHSTRビデオを作成することである。
論文 参考訳(メタデータ) (2022-04-09T09:23:58Z) - STDAN: Deformable Attention Network for Space-Time Video
Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。
まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。
第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:40:35Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Noisy-LSTM: Improving Temporal Awareness for Video Semantic Segmentation [29.00635219317848]
本稿では,エンドツーエンドで学習可能なNoisy-LSTMという新しいモデルを提案する。
また,ビデオシーケンスのフレームをノイズに置き換える,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:08:15Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。