論文の概要: Self-Supervised Video Similarity Learning
- arxiv url: http://arxiv.org/abs/2304.03378v1
- Date: Thu, 6 Apr 2023 21:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:39:43.838064
- Title: Self-Supervised Video Similarity Learning
- Title(参考訳): 自己監督型ビデオ類似学習
- Authors: Giorgos Kordopatis-Zilos and Giorgos Tolias and Christos Tzelepis and
Ioannis Kompatsiaris and Ioannis Patras and Symeon Papadopoulos
- Abstract要約: S$2$VSは、自己監督を伴うビデオ類似性学習手法である。
我々は、ラベル付きデータを用いた従来提案された手法を超越して、すべてのタスクで最先端のパフォーマンスを実現する単一の普遍モデルを学ぶ。
- 参考スコア(独自算出の注目度): 35.512588398849395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce S$^2$VS, a video similarity learning approach with
self-supervision. Self-Supervised Learning (SSL) is typically used to train
deep models on a proxy task so as to have strong transferability on target
tasks after fine-tuning. Here, in contrast to prior work, SSL is used to
perform video similarity learning and address multiple retrieval and detection
tasks at once with no use of labeled data. This is achieved by learning via
instance-discrimination with task-tailored augmentations and the widely used
InfoNCE loss together with an additional loss operating jointly on
self-similarity and hard-negative similarity. We benchmark our method on tasks
where video relevance is defined with varying granularity, ranging from video
copies to videos depicting the same incident or event. We learn a single
universal model that achieves state-of-the-art performance on all tasks,
surpassing previously proposed methods that use labeled data. The code and
pretrained models are publicly available at:
\url{https://github.com/gkordo/s2vs}
- Abstract(参考訳): S$^2$VSは,自己監督型ビデオ類似性学習手法である。
自己教師付き学習(ssl)は、一般的にプロキシタスクの深いモデルをトレーニングするために使用され、微調整後のターゲットタスクへの強い転送性を持つ。
ここでは、以前の作業とは対照的に、SSLはビデオ類似性学習を行い、ラベル付きデータを使わずに一度に複数の検索および検出タスクに対処するために使用される。
これは、タスク調整強化によるインスタンス識別と、広く使われているInfoNCEの損失と、自己相似性とハード負の類似性に基づく追加の損失によって学習される。
本手法は,ビデオコピーから同一のインシデントやイベントを描写したビデオまで,さまざまな粒度で映像の関連性を定義するタスクに対してベンチマークを行う。
すべてのタスクで最先端のパフォーマンスを実現する単一のユニバーサルモデルを学び、ラベル付きデータを使用する提案手法を上回っていきます。
コードと事前訓練されたモデルは、以下の通り公開されている。
関連論文リスト
- iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Adversarial Training of Variational Auto-encoders for Continual
Zero-shot Learning [1.90365714903665]
本稿では,全タスクの情報を保持する共有VAEモジュールとタスク固有のプライベートVAEモジュールで構成されるハイブリッドネットワークを提案する。
モデルのサイズは各タスクで増加し、タスク固有のスキルの破滅的な忘れを防止する。
ZSL (Zero-Shot Learning) と GZSL (Generalized Zero-Shot Learning) による逐次学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-07T11:21:24Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Rethinking Zero-shot Video Classification: End-to-end Training for
Realistic Applications [26.955001807330497]
ゼロショット学習(ZSL)はモデルを一度トレーニングし、トレーニングデータセットにクラスが存在しない新しいタスクに一般化する。
ビデオ分類におけるZSLの最初のエンドツーエンドアルゴリズムを提案する。
トレーニング手順は,最近の映像分類文献の知見に基づいて,学習可能な3D CNNを用いて視覚的特徴を学習する。
論文 参考訳(メタデータ) (2020-03-03T11:09:59Z) - Evolving Losses for Unsupervised Video Representation Learning [91.2683362199263]
大規模未ラベル映像データから映像表現を学習する新しい手法を提案する。
提案した教師なし表現学習では,単一のRGBネットワークが実現し,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-02-26T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。