論文の概要: Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks
- arxiv url: http://arxiv.org/abs/2211.01783v2
- Date: Mon, 16 Sep 2024 15:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 05:51:14.017574
- Title: Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks
- Title(参考訳): 時空間深部ネットワークにおける静的と動的情報の定量化と学習
- Authors: Matthew Kowal, Mennatullah Siam, Md Amirul Islam, Neil D. B. Bruce, Richard P. Wildes, Konstantinos G. Derpanis,
- Abstract要約: アクション認識,自動ビデオオブジェクト分割(AVOS),ビデオインスタンス分割(VIS)について検討した。
ほとんどの検査されたモデルは静的情報に偏っている。
ダイナミックスに偏りがあると仮定されるいくつかのデータセットは、実際には静的情報に偏りがある。
- 参考スコア(独自算出の注目度): 29.47784194895489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is limited understanding of the information captured by deep spatiotemporal models in their intermediate representations. For example, while evidence suggests that action recognition algorithms are heavily influenced by visual appearance in single frames, no quantitative methodology exists for evaluating such static bias in the latent representation compared to bias toward dynamics. We tackle this challenge by proposing an approach for quantifying the static and dynamic biases of any spatiotemporal model, and apply our approach to three tasks, action recognition, automatic video object segmentation (AVOS) and video instance segmentation (VIS). Our key findings are: (i) Most examined models are biased toward static information. (ii) Some datasets that are assumed to be biased toward dynamics are actually biased toward static information. (iii) Individual channels in an architecture can be biased toward static, dynamic or a combination of the two. (iv) Most models converge to their culminating biases in the first half of training. We then explore how these biases affect performance on dynamically biased datasets. For action recognition, we propose StaticDropout, a semantically guided dropout that debiases a model from static information toward dynamics. For AVOS, we design a better combination of fusion and cross connection layers compared with previous architectures.
- Abstract(参考訳): 中間表現において、深部時空間モデルで捉えた情報の理解は限られている。
例えば、アクション認識アルゴリズムは単一のフレームの視覚的外観に大きく影響されているという証拠はあるが、潜在表現におけるそのような静的バイアスを評価するための定量的方法論は、ダイナミクスに対するバイアスと比較して存在しない。
本研究では,任意の時空間モデルの静的および動的バイアスを定量化するためのアプローチを提案し,そのアプローチを3つのタスク,アクション認識,自動ビデオオブジェクト分割(AVOS),ビデオインスタンス分割(VIS)に適用する。
私たちの主要な発見は次のとおりです。
(i)ほとんどの検査モデルは静的情報に偏っている。
(ii) 動的に偏りがあると仮定されるいくつかのデータセットは、実際には静的情報に対して偏りがある。
3) アーキテクチャ内の個々のチャネルは、静的、動的、あるいは2つの組み合わせに偏りがある。
(4)ほとんどのモデルは、トレーニングの前半で達成されるバイアスに収束します。
次に、これらのバイアスが動的バイアス付きデータセットのパフォーマンスにどのように影響するかを調査する。
動作認識のために,静的情報から動的情報へモデルを分離するセマンティックガイド付きドロップアウトであるStaticDropoutを提案する。
AVOSでは、従来のアーキテクチャと比較して、融合層とクロスコネクション層をうまく組み合わせて設計する。
関連論文リスト
- Bias in Motion: Theoretical Insights into the Dynamics of Bias in SGD Training [7.5041863920639456]
機械学習システムは、データの望ましくない特徴を活用してバイアスを取得し、異なるサブポピュレーションの精度に影響を与えることが多い。
本稿では, ガウス混合モデルを用いて, 教師学生によるデータサブポピュレーションのモデル化におけるバイアスの進化について検討する。
この発見を公平性と堅牢性に適用することで、不均一なデータと突発的な特徴がバイアスを発生し増幅する方法について、いつ、どのように、どのように、どのようにして、そして、どのようにして、そのバイアスを増大させるかを説明します。
論文 参考訳(メタデータ) (2024-05-28T15:50:10Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Learning Latent Dynamics via Invariant Decomposition and
(Spatio-)Temporal Transformers [0.6767885381740952]
本研究では,高次元経験データから力学系を学習する手法を提案する。
我々は、システムの複数の異なるインスタンスからデータが利用できる設定に焦点を当てる。
我々は、単純な理論的分析と、合成および実世界のデータセットに関する広範な実験を通して行動を研究する。
論文 参考訳(メタデータ) (2023-06-21T07:52:07Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Mitigating and Evaluating Static Bias of Action Representations in the
Background and the Foreground [59.916365866505636]
静的特徴のショートカットは、運動特徴の学習を妨げる可能性があるため、分布外一般化が不十分になる。
本稿では,ビデオの静的および移動部分からの信号に矛盾するテストビデオを作成することにより,前景の静的バイアスの存在を実証的に検証する。
StillMixは、2D参照ネットワークを使ってバイアスを誘発するビデオフレームを特定し、トレーニング用のビデオと混ぜることで、効果的なバイアス抑制を提供する。
論文 参考訳(メタデータ) (2022-11-23T11:40:02Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - A Deeper Dive Into What Deep Spatiotemporal Networks Encode: Quantifying
Static vs. Dynamic Information [34.595367958746856]
我々は、アクション認識とビデオオブジェクトセグメンテーションという、広く研究されている2つのタスクを分析した。
ほとんどの検査されたモデルは静的情報に偏っている。
クロスコネクションを持つ2ストリームアーキテクチャでは、キャプチャされた静的情報と動的情報のバランスが良くなっている。
論文 参考訳(メタデータ) (2022-06-06T18:39:37Z) - Learning Interacting Dynamical Systems with Latent Gaussian Process ODEs [13.436770170612295]
本研究では,対話対象の連続時間力学の不確実性を考慮したモデリングを初めて行った。
我々のモデルは、独立力学と信頼性のある不確実性推定との相互作用の両方を推測する。
論文 参考訳(メタデータ) (2022-05-24T08:36:25Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。