論文の概要: How Severe is Benchmark-Sensitivity in Video Self-Supervised Learning?
- arxiv url: http://arxiv.org/abs/2203.14221v1
- Date: Sun, 27 Mar 2022 06:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:59:29.019474
- Title: How Severe is Benchmark-Sensitivity in Video Self-Supervised Learning?
- Title(参考訳): ビデオ自己監督学習におけるベンチマーク感度はどれほど重要か?
- Authors: Fida Mohammad Thoker, Hazel Doughty, Piyush Bagad, Cees Snoek
- Abstract要約: 我々は、現在使用されているベンチマーク基準に対して、ビデオ自己教師型学習がどれほど敏感であるかを調査する。
500以上の実験を総合的に比較したところ、ビデオ自己教師型学習における現在のベンチマークは、一般化のよい指標ではないことが判明した。
- 参考スコア(独自算出の注目度): 19.920980847895233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of video self-supervised learning, there is much
still to be understood about their generalization capability. In this paper, we
investigate how sensitive video self-supervised learning is to the currently
used benchmark convention and whether methods generalize beyond the canonical
evaluation setting. We do this across four different factors of sensitivity:
domain, samples, actions and task. Our comprehensive set of over 500
experiments, which encompasses 7 video datasets, 9 self-supervised methods and
6 video understanding tasks, reveals that current benchmarks in video
self-supervised learning are not a good indicator of generalization along these
sensitivity factors. Further, we find that self-supervised methods considerably
lag behind vanilla supervised pre-training, especially when domain shift is
large and the amount of available downstream samples are low. From our analysis
we distill the SEVERE-benchmark, a subset of our experiments, and discuss its
implication for evaluating the generalizability of representations obtained by
existing and future self-supervised video learning methods.
- Abstract(参考訳): 近年,ビデオ自己教師型学習の成功にもかかわらず,その一般化能力については理解が難しい。
本稿では,現在使用されているベンチマーク・コンベンションに対して,ビデオによる自己教師型学習がいかに敏感か,また,手法が標準的評価設定を超えて一般化されているかを検討する。
これは、ドメイン、サンプル、アクション、タスクの4つの異なる感度要因にまたがっています。
7つのビデオデータセット、9つの自己教師あり手法、6つのビデオ理解タスクを含む、500以上の実験の包括的なセットは、ビデオ自己教師あり学習における現在のベンチマークが、これらの感度因子に沿った一般化のよい指標ではないことを示している。
さらに,バニラ指導による事前訓練の遅れ,特にドメインシフトが大きく,下流サンプルの量が少ない場合には,自己監督法がかなり遅れることが判明した。
本分析から,実験のサブセットであるSEVERE-benchmarkを蒸留し,既存の自己教師型ビデオ学習手法による表現の一般化性を評価することの意味について考察した。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - A Large-Scale Analysis on Self-Supervised Video Representation Learning [15.205738030787673]
本研究では,1)データセットのサイズ,2)複雑性,3)データ分布,4)データノイズ,5)機能解析の5つの側面について検討する。
この研究から得られた興味深い洞察は、事前学習とターゲットデータセット、プレテキストタスク、モデルアーキテクチャの様々な特性にまたがる。
本稿では,限られたトレーニングデータを必要とするアプローチを提案し,従来の10倍の事前学習データを用いた最先端のアプローチより優れた手法を提案する。
論文 参考訳(メタデータ) (2023-06-09T16:27:14Z) - Unsupervised Embedding Quality Evaluation [6.72542623686684]
SSLモデルは、他のドメインに転送された時に正常に動作するかどうか、しばしば不明である。
安定した方法でデータを線形に分離することがいかに容易か、定量化できますか?
本稿では,自己教師付き学習における高次元幾何学構造理解の最近の進歩に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T01:06:44Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Hierarchical Self-supervised Representation Learning for Movie
Understanding [24.952866206036536]
本稿では,階層的映画理解モデルの各レベルを個別に事前学習する,新しい階層的自己指導型事前学習戦略を提案する。
具体的には、コントラスト学習目標を用いた低レベルビデオバックボーンの事前トレーニングと、イベントマスク予測タスクを用いた高レベルビデオコンテクストアライザの事前トレーニングを提案する。
まず、我々の自己指導型事前学習戦略が効果的であることを示し、VidSituベンチマーク[37]における全てのタスクとメトリクスのパフォーマンス改善につながっている(例:意味的役割予測を47%から61% CIDErスコアに改善する)。
論文 参考訳(メタデータ) (2022-04-06T21:28:41Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。
これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。
提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文 参考訳(メタデータ) (2020-09-28T11:57:43Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。