論文の概要: Frame Flexible Network
- arxiv url: http://arxiv.org/abs/2303.14817v1
- Date: Sun, 26 Mar 2023 20:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:22:02.657599
- Title: Frame Flexible Network
- Title(参考訳): フレームフレキシブルネットワーク
- Authors: Yitian Zhang, Yue Bai, Chang Liu, Huan Wang, Sheng Li, Yun Fu
- Abstract要約: 既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.623337134518835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video recognition algorithms always conduct different training
pipelines for inputs with different frame numbers, which requires repetitive
training operations and multiplying storage costs. If we evaluate the model
using other frames which are not used in training, we observe the performance
will drop significantly (see Fig.1), which is summarized as Temporal Frequency
Deviation phenomenon. To fix this issue, we propose a general framework, named
Frame Flexible Network (FFN), which not only enables the model to be evaluated
at different frames to adjust its computation, but also reduces the memory
costs of storing multiple models significantly. Concretely, FFN integrates
several sets of training sequences, involves Multi-Frequency Alignment (MFAL)
to learn temporal frequency invariant representations, and leverages
Multi-Frequency Adaptation (MFAD) to further strengthen the representation
abilities. Comprehensive empirical validations using various architectures and
popular benchmarks solidly demonstrate the effectiveness and generalization of
FFN (e.g., 7.08/5.15/2.17% performance gain at Frame 4/8/16 on
Something-Something V1 dataset over Uniformer). Code is available at
https://github.com/BeSpontaneous/FFN.
- Abstract(参考訳): 既存のビデオ認識アルゴリズムは、フレーム番号の異なる入力に対して、常に異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを用いてモデルを評価すると、時間周波数偏差現象として要約された性能が著しく低下する(図1参照)。
この問題を解決するために,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。これは,異なるフレームでモデルを評価して計算を調整するだけでなく,複数のモデルを保存する際のメモリコストを大幅に削減する。
具体的には、FFNは複数のトレーニングシーケンスを統合し、MFAL(Multi-Frequency Alignment)を用いて時間周波数不変表現を学習し、MFAD(Multi-Frequency Adaptation)を活用して表現能力をさらに強化する。
さまざまなアーキテクチャと一般的なベンチマークを使用した総合的な実証検証は、FFNの有効性と一般化を確証している(例えば、Uniformer上のSomething V1データセットのFrame 4/8/16における7.08/5.15/2.17%のパフォーマンス向上)。
コードはhttps://github.com/BeSpontaneous/FFN.comで入手できる。
関連論文リスト
- TIDE: Temporally Incremental Disparity Estimation via Pattern Flow in
Structured Light System [17.53719804060679]
TIDE-Netはモノカメラ構造光システムにおける差分計算の学習手法である。
得られた画像列に投影されたパターン(パターンフロー)の変形を利用して時間情報をモデル化する。
入力フレーム毎に、パターンフローに歪んだ相関ボリューム(現在のフレームから)と不均一(以前のフレームから)を融合する。
論文 参考訳(メタデータ) (2023-10-13T07:55:33Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Towards Frame Rate Agnostic Multi-Object Tracking [76.82407173177138]
本稿では,FraMOT 問題に初めて取り組むために,FAPS を用いたフレームレート非依存MOT フレームワークを提案する。
具体的には,フレームレート情報を推論し,符号化するフレームレートアグノスティックアソシエーションモジュール(FAAM)を提案する。
FAPSは、パターンマッチングと融合を追跡することによって、トレーニングにおけるすべての後処理ステップを反映する。
論文 参考訳(メタデータ) (2022-09-23T04:25:19Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Few Shot Activity Recognition Using Variational Inference [9.371378627575883]
本稿では,少数のショットアクティビティ認識のための新しい変分推論ベースアーキテクチャフレームワーク(HF-AR)を提案する。
筆者らの枠組みは, 容積保存型家庭用フローを活用して, 新規クラスの柔軟な後部分布を学習する。
これにより、人間の行動認識のための最先端のショットアプローチと比較して、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-08-20T03:57:58Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。