論文の概要: Recur, Attend or Convolve? Frame Dependency Modeling Matters for
Cross-Domain Robustness in Action Recognition
- arxiv url: http://arxiv.org/abs/2112.12175v1
- Date: Wed, 22 Dec 2021 19:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 14:51:23.281135
- Title: Recur, Attend or Convolve? Frame Dependency Modeling Matters for
Cross-Domain Robustness in Action Recognition
- Title(参考訳): 再帰か 参加か コンボルブか?
行動認識におけるクロスドメインロバスト性のためのフレーム依存モデル
- Authors: Sofia Broom\'e, Ernest Pokropek, Boyu Li, Hedvig Kjellstr\"om
- Abstract要約: 従来,2次元畳み込みニューラルネットワーク(CNN)は,コンピュータビジョンタスクの形状よりもテクスチャに偏っている傾向があった。
これは、大きなビデオモデルが時間の経過とともに関連した形状を追跡するのではなく、急激な相関関係を学習しているという疑いを提起する。
本研究では, フレーム依存性のモデリングによって, 連続的, 注意的, 畳み込み的ビデオモデルに対するドメイン間ロバスト性について検討した。
- 参考スコア(独自算出の注目度): 0.5448283690603357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most action recognition models today are highly parameterized, and evaluated
on datasets with predominantly spatially distinct classes. Previous results for
single images have shown that 2D Convolutional Neural Networks (CNNs) tend to
be biased toward texture rather than shape for various computer vision tasks
(Geirhos et al., 2019), reducing generalization. Taken together, this raises
suspicion that large video models learn spurious correlations rather than to
track relevant shapes over time and infer generalizable semantics from their
movement. A natural way to avoid parameter explosion when learning visual
patterns over time is to make use of recurrence across the time-axis. In this
article, we empirically study the cross-domain robustness for recurrent,
attention-based and convolutional video models, respectively, to investigate
whether this robustness is influenced by the frame dependency modeling. Our
novel Temporal Shape dataset is proposed as a light-weight dataset to assess
the ability to generalize across temporal shapes which are not revealed from
single frames. We find that when controlling for performance and layer
structure, recurrent models show better out-of-domain generalization ability on
the Temporal Shape dataset than convolution- and attention-based models.
Moreover, our experiments indicate that convolution- and attention-based models
exhibit more texture bias on Diving48 than recurrent models.
- Abstract(参考訳): 今日、ほとんどの行動認識モデルは高度にパラメータ化されており、主に空間的に異なるクラスを持つデータセットで評価されている。
単一画像に対する以前の結果は、2次元畳み込みニューラルネットワーク(CNN)が様々なコンピュータビジョンタスク(Geirhos et al., 2019)の形状よりもテクスチャに偏りがあることを示し、一般化を減らしている。
これは、大きなビデオモデルが時間とともに関連した形状を追跡し、それらの動きから一般化可能な意味を推測するよりも、刺激的な相関関係を学習しているという疑いを提起する。
時間とともに視覚パターンを学ぶとき、パラメータの爆発を避ける自然な方法は、時間軸を越えて繰り返しを利用することである。
本稿では、繰り返し、注意に基づく、及び畳み込みのビデオモデルに対するドメイン間ロバスト性について実証研究を行い、このロバスト性がフレーム依存性モデリングの影響について考察する。
提案する新しい時相形状データセットは,単一フレームから明らかにされない時相形状を一般化する能力を評価するための軽量データセットとして提案されている。
性能と層構造を制御する場合、再帰モデルでは、畳み込みモデルや注目モデルよりも時間形状データセットの領域外一般化能力が優れていることが分かる。
さらに, コンボリューションモデルとアテンションモデルでは, 繰り返しモデルよりもダイビング48のテクスチャバイアスが高いことが示された。
関連論文リスト
- OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - SeqLink: A Robust Neural-ODE Architecture for Modelling Partially Observed Time Series [11.261457967759688]
シーケンス表現の堅牢性を高めるために設計された,革新的なニューラルアーキテクチャであるSeqLinkを紹介する。
我々はSeqLinkが断続時系列のモデリングを改善し、一貫して最先端のアプローチより優れていることを示した。
論文 参考訳(メタデータ) (2022-12-07T10:25:59Z) - Learning to Reconstruct Missing Data from Spatiotemporal Graphs with
Sparse Observations [11.486068333583216]
本稿では、欠落したデータポイントを再構築するための効果的なモデル学習の課題に取り組む。
我々は,高度にスパースな観測値の集合を与えられた注意に基づくアーキテクチャのクラスを提案し,時間と空間における点の表現を学習する。
技術状況と比較して、我々のモデルは予測エラーを伝播したり、前方および後方の時間依存性をエンコードするために双方向モデルを必要とすることなくスパースデータを処理します。
論文 参考訳(メタデータ) (2022-05-26T16:40:48Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Object-centric and memory-guided normality reconstruction for video
anomaly detection [56.64792194894702]
本稿では,ビデオ監視における異常検出問題に対処する。
異常事象の固有な規則性と不均一性のため、問題は正規性モデリング戦略と見なされる。
我々のモデルは、トレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正規パターンを学習する。
論文 参考訳(メタデータ) (2022-03-07T19:28:39Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。