論文の概要: Dynamic Temporal Filtering in Video Models
- arxiv url: http://arxiv.org/abs/2211.08252v1
- Date: Tue, 15 Nov 2022 15:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:10:25.133631
- Title: Dynamic Temporal Filtering in Video Models
- Title(参考訳): ビデオモデルにおける動的時間フィルタリング
- Authors: Fuchen Long and Zhaofan Qiu and Yingwei Pan and Ting Yao and Chong-Wah
Ngo and Tao Mei
- Abstract要約: 時間的特徴学習の新しいレシピである動的時間フィルタ(DTF)を提案する。
DTFは、その長距離時間ダイナミクスをモデル化するために、空間的位置ごとに特別な周波数フィルタを学習する。
DTFブロックをConvNetsとTransformerにプラグインすることで、DTF-NetとDTF-Transformerが得られる。
- 参考スコア(独自算出の注目度): 128.02725199486719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal dynamics is conventionally modeled with 3D spatial-temporal
kernel or its factorized version comprised of 2D spatial kernel and 1D temporal
kernel. The modeling power, nevertheless, is limited by the fixed window size
and static weights of a kernel along the temporal dimension. The pre-determined
kernel size severely limits the temporal receptive fields and the fixed weights
treat each spatial location across frames equally, resulting in sub-optimal
solution for long-range temporal modeling in natural scenes. In this paper, we
present a new recipe of temporal feature learning, namely Dynamic Temporal
Filter (DTF), that novelly performs spatial-aware temporal modeling in
frequency domain with large temporal receptive field. Specifically, DTF
dynamically learns a specialized frequency filter for every spatial location to
model its long-range temporal dynamics. Meanwhile, the temporal feature of each
spatial location is also transformed into frequency feature spectrum via 1D
Fast Fourier Transform (FFT). The spectrum is modulated by the learnt frequency
filter, and then transformed back to temporal domain with inverse FFT. In
addition, to facilitate the learning of frequency filter in DTF, we perform
frame-wise aggregation to enhance the primary temporal feature with its
temporal neighbors by inter-frame correlation. It is feasible to plug DTF block
into ConvNets and Transformer, yielding DTF-Net and DTF-Transformer. Extensive
experiments conducted on three datasets demonstrate the superiority of our
proposals. More remarkably, DTF-Transformer achieves an accuracy of 83.5% on
Kinetics-400 dataset. Source code is available at
\url{https://github.com/FuchenUSTC/DTF}.
- Abstract(参考訳): ビデオテンポラリダイナミクスは従来の3次元空間-時間的カーネルまたは2次元空間的カーネルと1次元時間的カーネルからなる因子化バージョンでモデル化される。
それでもモデリング能力は、時間次元に沿って固定されたウィンドウサイズとカーネルの静的重みによって制限される。
事前決定されたカーネルサイズは、時間受容場を厳しく制限し、固定重み付けはフレーム間の各空間位置を等しく扱い、自然場面における長距離時間モデリングの最適解となる。
本稿では,時間的特徴学習の新しい手法である動的時間的フィルタ(DTF)を提案する。
具体的には、DTFはその長距離時間ダイナミクスをモデル化するために、空間的位置ごとに特別な周波数フィルタを動的に学習する。
一方、各空間位置の時間的特徴は、1D Fast Fourier Transform (FFT)を介して周波数特徴スペクトルに変換される。
スペクトルは学習周波数フィルタによって変調され、その後、逆FFTで時間領域に変換される。
さらに, DTFにおける周波数フィルタの学習を容易にするため, フレーム間相関による時間的特徴量の向上を目的としてフレームワイズアグリゲーションを行う。
DTFブロックをConvNetsとTransformerにプラグインすることで、DTF-NetとDTF-Transformerが得られる。
3つのデータセットで広範な実験を行った結果,提案手法の優越性が示された。
さらに驚くべきことに、DTF-TransformerはKinetics-400データセットで83.5%の精度を実現している。
ソースコードは \url{https://github.com/FuchenUSTC/DTF} で入手できる。
関連論文リスト
- Neural Fourier Modelling: A Highly Compact Approach to Time-Series Analysis [9.969451740838418]
時系列解析のためのコンパクトで強力なソリューションであるニューラルフーリエモデリング(NFM)を導入する。
NFM はフーリエ変換 (FT) の2つの重要な性質 (i) 有限長時系列をフーリエ領域の関数としてモデル化する能力 (ii) フーリエ領域内のデータ操作の能力 (ii) に基礎を置いている。
NFMは幅広いタスクで最先端のパフォーマンスを達成しており、テスト時にこれまで見つからなかったサンプリングレートを持つ時系列シナリオに挑戦する。
論文 参考訳(メタデータ) (2024-10-07T02:39:55Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - GLFNET: Global-Local (frequency) Filter Networks for efficient medical
image segmentation [18.314093733807972]
医用画像分割のためのGlobal-Local Filter Network (GLFNet) と呼ばれるトランスフォーマースタイルのアーキテクチャを提案する。
モデル効率を最適化するために,自己認識機構をグローバルローカルフィルタブロックの組み合わせに置き換える。
GLFNetを3つのベンチマークデータセットでテストし、GFLOP操作の約2倍の効率を保ちながら、最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2024-03-01T09:35:03Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Fourier PlenOctrees for Dynamic Radiance Field Rendering in Real-time [43.0484840009621]
Neural Radiance Field (NeRF)のような暗黙の神経表現は、主にマルチビュー設定下でキャプチャされた静的オブジェクトのモデリングに焦点を当てている。
本稿では,FVV(Fourier PlenOctree)技術を用いて,FVV(Fourier PlenOctree)設定下で撮影した動的シーンの効率的なニューラルモデリングとリアルタイムレンダリングを実現する。
提案手法は,元のNeRFよりも3000倍高速で,SOTAよりも1桁の加速速度を持つことを示す。
論文 参考訳(メタデータ) (2022-02-17T11:57:01Z) - Diverse Temporal Aggregation and Depthwise Spatiotemporal Factorization
for Efficient Video Classification [12.787763599624173]
本稿では,時間的ワンショットアグリゲーション(T-OSA)モジュールと深度分解成分D(2+1)Dからなる,VoV3Dと呼ばれる効率的な時間的モデリング3Dアーキテクチャを提案する。
時間モデリングの効率性と有効性により、VoV3D-Lは6倍のモデルパラメータと16倍の計算能力を有しており、SomesingとKineeticsの双方で最先端の時間モデリング手法に勝っている。
論文 参考訳(メタデータ) (2020-12-01T07:40:06Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。