論文の概要: A Deeper Dive Into What Deep Spatiotemporal Networks Encode: Quantifying
Static vs. Dynamic Information
- arxiv url: http://arxiv.org/abs/2206.02846v1
- Date: Mon, 6 Jun 2022 18:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 09:32:06.147644
- Title: A Deeper Dive Into What Deep Spatiotemporal Networks Encode: Quantifying
Static vs. Dynamic Information
- Title(参考訳): 深層時空間ネットワークの符号化 - 静的情報と動的情報の定量化-
- Authors: Matthew Kowal, Mennatullah Siam, Md Amirul Islam, Neil D. B. Bruce,
Richard P. Wildes, Konstantinos G. Derpanis
- Abstract要約: 我々は、アクション認識とビデオオブジェクトセグメンテーションという、広く研究されている2つのタスクを分析した。
ほとんどの検査されたモデルは静的情報に偏っている。
クロスコネクションを持つ2ストリームアーキテクチャでは、キャプチャされた静的情報と動的情報のバランスが良くなっている。
- 参考スコア(独自算出の注目度): 34.595367958746856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep spatiotemporal models are used in a variety of computer vision tasks,
such as action recognition and video object segmentation. Currently, there is a
limited understanding of what information is captured by these models in their
intermediate representations. For example, while it has been observed that
action recognition algorithms are heavily influenced by visual appearance in
single static frames, there is no quantitative methodology for evaluating such
static bias in the latent representation compared to bias toward dynamic
information (e.g. motion). We tackle this challenge by proposing a novel
approach for quantifying the static and dynamic biases of any spatiotemporal
model. To show the efficacy of our approach, we analyse two widely studied
tasks, action recognition and video object segmentation. Our key findings are
threefold: (i) Most examined spatiotemporal models are biased toward static
information; although, certain two-stream architectures with cross-connections
show a better balance between the static and dynamic information captured. (ii)
Some datasets that are commonly assumed to be biased toward dynamics are
actually biased toward static information. (iii) Individual units (channels) in
an architecture can be biased toward static, dynamic or a combination of the
two.
- Abstract(参考訳): 深い時空間モデルは、アクション認識やビデオオブジェクトのセグメンテーションなど、様々なコンピュータビジョンタスクで使用される。
現在、これらのモデルが取得した情報をその中間表現で限定的に理解している。
例えば、アクション認識アルゴリズムは単一の静的フレームの視覚的な外観に大きく影響されていることが観察されているが、動的情報に対するバイアス(例えば動き)と比較して、潜在表現における静的バイアスを評価する定量的な方法は存在しない。
我々は、時空間モデルの静的および動的バイアスを定量化する新しいアプローチを提案することで、この課題に取り組む。
提案手法の有効性を示すために,動作認識と映像オブジェクトのセグメンテーションという,広く研究されている2つのタスクを分析した。
私たちの重要な発見は3つあります
(i)ほとんどの時空間モデルは静的情報に偏りがあるが,相互接続のある2ストリームアーキテクチャでは静的情報と動的情報のバランスが良くなっている。
(ii)一般的にダイナミクスに偏っていると仮定されるデータセットのいくつかは、実際には静的情報に偏っている。
(iii)アーキテクチャ内の個々の単位(チャネル)は、静的、動的、または2つの組み合わせに偏りがある。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks [29.47784194895489]
アクション認識,自動ビデオオブジェクト分割(AVOS),ビデオインスタンス分割(VIS)について検討した。
ほとんどの検査されたモデルは静的情報に偏っている。
ダイナミックスに偏りがあると仮定されるいくつかのデータセットは、実際には静的情報に偏りがある。
論文 参考訳(メタデータ) (2022-11-03T13:17:53Z) - DyTed: Disentangled Representation Learning for Discrete-time Dynamic
Graph [59.583555454424]
離散時間動的グラフ、すなわちDyTedのための新しいディペンタングル表現学習フレームワークを提案する。
本研究では,時間不変の表現と時間変動の表現を効果的に識別する構造的コントラスト学習とともに,時間的クリップのコントラスト学習タスクを特別に設計する。
論文 参考訳(メタデータ) (2022-10-19T14:34:12Z) - STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文 参考訳(メタデータ) (2022-07-06T15:48:58Z) - Learning Interacting Dynamical Systems with Latent Gaussian Process ODEs [13.436770170612295]
本研究では,対話対象の連続時間力学の不確実性を考慮したモデリングを初めて行った。
我々のモデルは、独立力学と信頼性のある不確実性推定との相互作用の両方を推測する。
論文 参考訳(メタデータ) (2022-05-24T08:36:25Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - A Gated Fusion Network for Dynamic Saliency Prediction [16.701214795454536]
Gated Fusion Network for dynamic saliency (GFSalNet)
GFSalNetはゲート融合機構を介して動的に予測を行うことができる最初のディープサリエンシーモデルです。
さらに,その適応的融合手法により,時間情報をより効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-02-15T17:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。