論文の概要: Suppressing Static Visual Cues via Normalizing Flows for Self-Supervised
Video Representation Learning
- arxiv url: http://arxiv.org/abs/2112.03803v2
- Date: Wed, 8 Dec 2021 06:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 11:55:47.571768
- Title: Suppressing Static Visual Cues via Normalizing Flows for Self-Supervised
Video Representation Learning
- Title(参考訳): 自己監督型映像表現学習のための正規化フローによる静的視覚キューの抑制
- Authors: Manlin Zhang, Jinpeng Wang, Andy J. Ma
- Abstract要約: 本稿では,自己教師付きビデオ表現学習における確率的解析に基づく静的視覚的手がかり(SSVC)の抑制手法を提案する。
ビデオ中の静的因子をランダム変数としてモデル化することにより、各潜伏変数の条件分布がシフトし、正規化される。
最後に、ポジティブペアは、静的なキューに対する表現バイアスの問題を軽減するために、対照的な学習のためのモーション保存ビデオによって構成される。
- 参考スコア(独自算出の注目度): 7.27708818665289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great progress in video understanding made by deep convolutional
neural networks, feature representation learned by existing methods may be
biased to static visual cues. To address this issue, we propose a novel method
to suppress static visual cues (SSVC) based on probabilistic analysis for
self-supervised video representation learning. In our method, video frames are
first encoded to obtain latent variables under standard normal distribution via
normalizing flows. By modelling static factors in a video as a random variable,
the conditional distribution of each latent variable becomes shifted and scaled
normal. Then, the less-varying latent variables along time are selected as
static cues and suppressed to generate motion-preserved videos. Finally,
positive pairs are constructed by motion-preserved videos for contrastive
learning to alleviate the problem of representation bias to static cues. The
less-biased video representation can be better generalized to various
downstream tasks. Extensive experiments on publicly available benchmarks
demonstrate that the proposed method outperforms the state of the art when only
single RGB modality is used for pre-training.
- Abstract(参考訳): 深層畳み込みニューラルネットワークによる映像理解の進歩にもかかわらず、既存の方法で学習された特徴表現は静的な視覚的手がかりに偏っている可能性がある。
そこで本稿では,自己教師付きビデオ表現学習における確率論的解析に基づく静的視覚的手がかり(SSVC)の抑制手法を提案する。
本手法では,まずビデオフレームを符号化し,正規化フローによる標準正規分布下での潜在変数を得る。
ビデオ中の静的因子をランダム変数としてモデル化することにより、各潜伏変数の条件分布がシフトして正規化される。
そして、時間とともに変化の少ない潜伏変数を静的なキューとして選択し、動画の保存を抑える。
最後に、正のペアは、コントラスト学習のための運動保存ビデオによって構成され、表現バイアスの問題を静的な手がかりに緩和する。
バイアスの少ないビデオ表現は、様々な下流タスクにもっと一般化できる。
公開されているベンチマーク実験により,提案手法は,1つのRGBモダリティのみを事前学習に使用した場合に,技術状況よりも優れることが示された。
関連論文リスト
- Don't Judge by the Look: Towards Motion Coherent Video Representation [56.09346222721583]
Motion Coherent Augmentation (MCA)は、ビデオ理解のためのデータ拡張手法である。
MCAはビデオの外観変化を導入し、静的な外観ではなく、モデルに動きのパターンを優先するよう暗黙的に促す。
論文 参考訳(メタデータ) (2024-03-14T15:53:04Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Mitigating and Evaluating Static Bias of Action Representations in the
Background and the Foreground [59.916365866505636]
静的特徴のショートカットは、運動特徴の学習を妨げる可能性があるため、分布外一般化が不十分になる。
本稿では,ビデオの静的および移動部分からの信号に矛盾するテストビデオを作成することにより,前景の静的バイアスの存在を実証的に検証する。
StillMixは、2D参照ネットワークを使ってバイアスを誘発するビデオフレームを特定し、トレーニング用のビデオと混ぜることで、効果的なバイアス抑制を提供する。
論文 参考訳(メタデータ) (2022-11-23T11:40:02Z) - Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks [29.47784194895489]
アクション認識,自動ビデオオブジェクト分割(AVOS),ビデオインスタンス分割(VIS)について検討した。
ほとんどの検査されたモデルは静的情報に偏っている。
ダイナミックスに偏りがあると仮定されるいくつかのデータセットは、実際には静的情報に偏りがある。
論文 参考訳(メタデータ) (2022-11-03T13:17:53Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection [22.098399083491937]
ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
論文 参考訳(メタデータ) (2022-06-17T05:54:31Z) - Probabilistic Representations for Video Contrastive Learning [64.47354178088784]
本稿では,確率的表現と対比学習を橋渡しする自己教師型表現学習法を提案する。
ビデオ配信全体から埋め込みをサンプリングすることにより、注意深いサンプリング戦略や変換を回避し、クリップの拡張ビューを生成することができる。
論文 参考訳(メタデータ) (2022-04-08T09:09:30Z) - Stochastic Image-to-Video Synthesis using cINNs [22.5739334314885]
条件付き可逆ニューラルネットワーク(cINN)は、静的および他のビデオ特性を独立してモデル化することによってビデオを説明することができる。
4つの多様なビデオデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-05-10T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。