論文の概要: Video BagNet: short temporal receptive fields increase robustness in
long-term action recognition
- arxiv url: http://arxiv.org/abs/2308.11249v1
- Date: Tue, 22 Aug 2023 07:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:38:51.858533
- Title: Video BagNet: short temporal receptive fields increase robustness in
long-term action recognition
- Title(参考訳): Video BagNet:短期的受容野は長期的行動認識において堅牢性を高める
- Authors: Ombretta Strafforello, Xin Liu, Klamer Schutte, Jan van Gemert
- Abstract要約: 大きな時間的受容場により、モデルはビデオの正確なサブアクション順序を符号化することができる。
我々は,時間的受容場を縮小することにより,モデルロバスト性をサブアクション順に改善できるかどうかを検討する。
短い受容場はサブアクションの順序変化に対して頑健であり、大きい時間受容場はサブアクションの順序に敏感である。
- 参考スコア(独自算出の注目度): 11.452704540879513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous work on long-term video action recognition relies on deep
3D-convolutional models that have a large temporal receptive field (RF). We
argue that these models are not always the best choice for temporal modeling in
videos. A large temporal receptive field allows the model to encode the exact
sub-action order of a video, which causes a performance decrease when testing
videos have a different sub-action order. In this work, we investigate whether
we can improve the model robustness to the sub-action order by shrinking the
temporal receptive field of action recognition models. For this, we design
Video BagNet, a variant of the 3D ResNet-50 model with the temporal receptive
field size limited to 1, 9, 17 or 33 frames. We analyze Video BagNet on
synthetic and real-world video datasets and experimentally compare models with
varying temporal receptive fields. We find that short receptive fields are
robust to sub-action order changes, while larger temporal receptive fields are
sensitive to the sub-action order.
- Abstract(参考訳): 長期ビデオ動作認識に関するこれまでの研究は、大きな時間的受容場(rf)を持つ深い3d畳み込みモデルに依存している。
これらのモデルは、ビデオの時間的モデリングにとって、必ずしも最良の選択肢ではない、と我々は主張する。
大きな時間的受容場は、ビデオの正確なサブアクション順序を符号化することができ、テストビデオが異なるサブアクション順序を持つ場合のパフォーマンスが低下する。
本研究では,行動認識モデルの時間的受容領域を縮小することにより,モデルロバスト性をサブアクション順に改善できるかを検討する。
そこで我々は,3D ResNet-50モデルの変種であるVideo BagNetを設計し,時間的受容野サイズを1,9,17,33フレームに制限した。
合成および実世界のビデオデータセット上でビデオバネットを解析し,モデルと時間的受容場を実験的に比較する。
短い受容場はサブアクションの順序変化に対して頑健であり、大きい時間受容場はサブアクションの順序に敏感である。
関連論文リスト
- RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Streaming Video Temporal Action Segmentation In Real Time [2.8728707559692475]
本稿では,リアルタイムの時間的動作分割タスクをリアルタイムにストリーミングするマルチモーダリティモデルを提案する。
我々のモデルは、最先端モデル計算の40%未満の時間で人間の動作をリアルタイムにセグメントし、全映像モデルの精度の90%を達成している。
論文 参考訳(メタデータ) (2022-09-28T03:27:37Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z) - DSANet: Dynamic Segment Aggregation Network for Video-Level
Representation Learning [29.182482776910152]
我々は,ビデオ認識の重要な側面として,動力学的・短距離時間モデリングを考案した。
本稿では,スニペット間の関係を捉えるための動的セグメンテーションアグリゲーション(DSA)モジュールを提案する。
提案するDSAモジュールは,様々なビデオ認識モデルに有益であることを示す。
論文 参考訳(メタデータ) (2021-05-25T17:09:57Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。