論文の概要: Uncovering the Hidden Dynamics of Video Self-supervised Learning under
Distribution Shifts
- arxiv url: http://arxiv.org/abs/2306.02014v1
- Date: Sat, 3 Jun 2023 06:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:44:48.666096
- Title: Uncovering the Hidden Dynamics of Video Self-supervised Learning under
Distribution Shifts
- Title(参考訳): 分散シフト下におけるビデオ自己教師型学習の隠れダイナミクスの解明
- Authors: Pritam Sarkar, Ahmad Beirami, Ali Etemad
- Abstract要約: 本研究では, 自然分布変化に対応した6種類の自己監督手法(v-SimCLR, v-MOCO, v-BYOL, v-SimSiam, v-DINO, v-MAE)の挙動について検討した。
本研究は,VSSL手法の興味深い発見と興味深い挙動を明らかにするものである。
- 参考スコア(独自算出の注目度): 32.38272015034909
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video self-supervised learning (VSSL) has made significant progress in recent
years. However, the exact behavior and dynamics of these models under different
forms of distribution shift are not yet known. In this paper, we
comprehensively study the behavior of six popular self-supervised methods
(v-SimCLR, v-MOCO, v-BYOL, v-SimSiam, v-DINO, v-MAE) in response to various
forms of natural distribution shift, i.e., (i) context shift, (ii) viewpoint
shift, (iii) actor shift, (iv) source shift, (v) generalizability to unknown
classes (zero-shot), and (vi) open-set recognition. To perform this extensive
study, we carefully craft a test bed consisting of $17$ in-distribution and
out-of-distribution benchmark pairs using available public datasets and a
series of evaluation protocols to stress-test the different methods under the
intended shifts. Our study uncovers a series of intriguing findings and
interesting behaviors of VSSL methods. For instance, we observe that while
video models generally struggle with context shifts, v-MAE and supervised
learning exhibit more robustness. Moreover, our study shows that v-MAE is a
strong temporal learner, whereas contrastive methods, v-SimCLR and v-MOCO,
exhibit strong performances against viewpoint shifts. When studying the notion
of open-set recognition, we notice a trade-off between closed-set and open-set
recognition performance, particularly if the pretrained VSSL encoders are used
without finetuning. We hope that our work will contribute to the development of
robust video representation learning frameworks for various real-world
scenarios.
- Abstract(参考訳): ビデオ自己教師型学習(VSSL)は近年大きな進歩を遂げている。
しかし、分布シフトの異なる形でのこれらのモデルの正確な挙動とダイナミクスはまだ分かっていない。
本稿では,様々な形態の自然分布変化に対応する6種類の自己監督手法(v-SimCLR,v-MOCO,v-BYOL,v-SimSiam,v-DINO,v-MAE)の挙動を包括的に研究する。
(i)コンテキストシフト。
(ii)視点転換。
(iii)俳優交代。
(iv) ソースシフト。
(v)未知クラスへの一般化可能性(ゼロショット)
(vi)オープンセット認識。
この広範な研究を行うために、利用可能な公開データセットと一連の評価プロトコルを使用して17ドルの分散および分散ベンチマークペアからなるテストベッドを慎重に作成し、意図したシフトの下で異なるメソッドをストレステストする。
本研究は,VSSL手法の興味深い発見と興味深い挙動を明らかにするものである。
例えば、ビデオモデルは一般的にコンテキストシフトに苦しむが、v-MAEと教師付き学習はより堅牢性を示す。
また,v-MAEは時間的学習者であり,v-SimCLRとv-MOCOは視点変化に対して強い性能を示す。
オープンセット認識の概念を研究する際,特に未学習のVSSLエンコーダを微調整なしで使用する場合,クローズドセットとオープンセット認識性能のトレードオフに気づく。
私たちの研究が,実世界のさまざまなシナリオを対象としたロバストなビデオ表現学習フレームワークの開発に貢献できることを願っています。
関連論文リスト
- Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators [0.0]
本稿では,大規模言語モデル (LLM) が,自然言語通信によって複数の視覚言語モデル (VLM) を効率的にコーディネートする方法を示す。
本研究は,同手法が行動認識のための監視ビデオに適用できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-20T10:26:28Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Teaching Matters: Investigating the Role of Supervision in Vision
Transformers [32.79398665600664]
視覚変換器(ViT)は,その注意,表現,下流のパフォーマンスの観点から,多様な動作を学習する。
また,オフセット・ローカル・アテンション・ヘッドの出現など,監督の面から一貫したViT行動も発見する。
我々の分析では、ViTは高度に柔軟であり、訓練方法に応じて、異なる順序で局所的およびグローバルな情報を処理できることが示されている。
論文 参考訳(メタデータ) (2022-12-07T18:59:45Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - SCVRL: Shuffled Contrastive Video Representation Learning [28.06521069427918]
SCVRLはビデオの自己教師型学習のためのコントラストベースのフレームワークである。
我々は、現代のコントラスト学習パラダイムにおいて、一般的なシャッフル述語タスクを再構築する。
我々のネットワークは、自己監督された設定で動きを学習する能力があり、4つのベンチマークでCVRLよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-05-24T01:24:47Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z) - A Multi-view Perspective of Self-supervised Learning [24.14738533504335]
自己教師付き学習(SSL)は最近広く注目を集めており、通常は手動によるデータアノテーションを使わずにプレテキストタスクを導入している。
本稿では、一般的なプレテキストタスクのクラスをビューデータ拡張(VDA)とビューラベル分類(VLC)の組み合わせに分離するために、マルチビューの視点を借りる。
具体的には、単純なマルチビュー学習フレームワークを特別に設計し(SSL-MV)、拡張ビュー上の同じタスクを通して下流タスク(元ビュー)の機能学習を支援する。
論文 参考訳(メタデータ) (2020-02-22T13:26:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。