論文の概要: TFCNet: Temporal Fully Connected Networks for Static Unbiased Temporal
Reasoning
- arxiv url: http://arxiv.org/abs/2203.05928v1
- Date: Fri, 11 Mar 2022 13:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:03:49.220864
- Title: TFCNet: Temporal Fully Connected Networks for Static Unbiased Temporal
Reasoning
- Title(参考訳): TFCNet: 静的非バイアス時間推論のための時間完全接続ネットワーク
- Authors: Shiwen Zhang
- Abstract要約: 現在のビデオ分類ベンチマークには静的な特徴に対する強いバイアスが含まれており、時間的モデリング能力を正確に反映することはできない。
静的バイアスを排除するための新しいビデオ分類ベンチマークが提案され、これらの新しいベンチマークの実験により、現在のクリップベースの3D CNNは、RNN構造や最近のビデオトランスフォーマーよりも優れていることが示された。
ビデオレベル3D CNN(V3D)にTFCブロックを挿入することで、提案するTFCNetsは、合成時間的推論ベンチマークCATERと実世界の静的不偏性データセットDiving48に、新しい最先端の結果を確立する。
- 参考スコア(独自算出の注目度): 3.4570413826505564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Reasoning is one important functionality for vision intelligence. In
computer vision research community, temporal reasoning is usually studied in
the form of video classification, for which many state-of-the-art Neural
Network structures and dataset benchmarks are proposed in recent years,
especially 3D CNNs and Kinetics. However, some recent works found that current
video classification benchmarks contain strong biases towards static features,
thus cannot accurately reflect the temporal modeling ability. New video
classification benchmarks aiming to eliminate static biases are proposed, with
experiments on these new benchmarks showing that the current clip-based 3D CNNs
are outperformed by RNN structures and recent video transformers.
In this paper, we find that 3D CNNs and their efficient depthwise variants,
when video-level sampling strategy is used, are actually able to beat RNNs and
recent vision transformers by significant margins on static-unbiased temporal
reasoning benchmarks. Further, we propose Temporal Fully Connected Block (TFC
Block), an efficient and effective component, which approximates fully
connected layers along temporal dimension to obtain video-level receptive
field, enhancing the spatiotemporal reasoning ability. With TFC blocks inserted
into Video-level 3D CNNs (V3D), our proposed TFCNets establish new
state-of-the-art results on synthetic temporal reasoning benchmark, CATER, and
real world static-unbiased dataset, Diving48, surpassing all previous methods.
- Abstract(参考訳): 時間的推論は、ビジョンインテリジェンスの重要な機能のひとつです。
コンピュータビジョン研究コミュニティでは、時間的推論は通常、ビデオ分類の形で研究され、特に3D CNNやキネティクスなど、最先端のニューラルネットワーク構造やデータセットのベンチマークが近年提案されている。
しかし、近年の研究では、現在のビデオ分類ベンチマークには静的な特徴に対する強いバイアスがあり、時間的モデリング能力を正確に反映できないことが判明している。
静的バイアスを排除するための新しいビデオ分類ベンチマークが提案され、これらの新しいベンチマークの実験により、現在のクリップベースの3D CNNは、RNN構造や最近のビデオトランスフォーマーよりも優れていることが示された。
本稿では,3次元CNNと映像レベルのサンプリング戦略を用いると,静的な時間的推論ベンチマークにおいて,RNNと最近の視覚トランスフォーマーにかなりの差で打ち勝つことができることを示す。
さらに,時間次元に沿って全連結層を近似し,映像レベルの受容場を得る効率的かつ効果的な成分である時間完全連結ブロック(tfcブロック)を提案する。
ビデオレベル3D CNN(V3D)にTFCブロックを挿入することで、提案するTFCNetsは、合成時間的推論ベンチマークCATERと実世界の静的不偏性データセットDiving48に、新しい最先端の結果を確立する。
関連論文リスト
- Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - F4D: Factorized 4D Convolutional Neural Network for Efficient
Video-level Representation Learning [4.123763595394021]
既存の3D畳み込みニューラルネットワーク(CNN)ベースのビデオレベルの表現学習方法は、クリップベースである。
本稿では,より効果的で細かな時間的映像表現を学習できる,注意力のある分解型4D CNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-28T19:21:57Z) - Temporal Coherent Test-Time Optimization for Robust Video Classification [55.432935503341064]
ディープニューラルネットワークは、実世界のデプロイでテストデータが破損したときに失敗する可能性がある。
テスト時の最適化は、テスト中に破損したデータに対して、モデルを堅牢性に適応する効果的な方法である。
テスト時間最適化における時間的情報を利用したロバストな分類手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T04:59:23Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - Dissected 3D CNNs: Temporal Skip Connections for Efficient Online Video
Processing [15.980090046426193]
3Dカーネル(3D-CNN)を持つコナールニューラルネットワークは、現在、ビデオ認識タスクにおける最先端の結果を達成している。
本稿では,ネットワークの中間ボリュームを分割し,深度(時間)次元で伝搬する3D-CNNを提案する。
アクション分類では、ResNetモデルの分解されたバージョンは、オンライン操作時に77-90%少ない計算を実行する。
論文 参考訳(メタデータ) (2020-09-30T12:48:52Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。