論文の概要: Self-supervised Video-centralised Transformer for Video Face Clustering
- arxiv url: http://arxiv.org/abs/2203.13166v1
- Date: Thu, 24 Mar 2022 16:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:29:16.831117
- Title: Self-supervised Video-centralised Transformer for Video Face Clustering
- Title(参考訳): ビデオ顔クラスタリングのための自己教師付きビデオ集中トランス
- Authors: Yujiang Wang, Mingzhi Dong, Jie Shen, Yiming Luo, Yiming Lin,
Pingchuan Ma, Stavros Petridis, Maja Pantic
- Abstract要約: 本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
- 参考スコア(独自算出の注目度): 58.12996668434134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel method for face clustering in videos using a
video-centralised transformer. Previous works often employed contrastive
learning to learn frame-level representation and used average pooling to
aggregate the features along the temporal dimension. This approach may not
fully capture the complicated video dynamics. In addition, despite the recent
progress in video-based contrastive learning, few have attempted to learn a
self-supervised clustering-friendly face representation that benefits the video
face clustering task. To overcome these limitations, our method employs a
transformer to directly learn video-level representations that can better
reflect the temporally-varying property of faces in videos, while we also
propose a video-centralised self-supervised framework to train the transformer
model. We also investigate face clustering in egocentric videos, a
fast-emerging field that has not been studied yet in works related to face
clustering. To this end, we present and release the first large-scale
egocentric video face clustering dataset named EasyCom-Clustering. We evaluate
our proposed method on both the widely used Big Bang Theory (BBT) dataset and
the new EasyCom-Clustering dataset. Results show the performance of our
video-centralised transformer has surpassed all previous state-of-the-art
methods on both benchmarks, exhibiting a self-attentive understanding of face
videos.
- Abstract(参考訳): 本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
以前の作品では、フレームレベルの表現を学ぶために対比学習を使い、時間次元に沿って特徴を集約するために平均プールを使った。
このアプローチは複雑なビデオダイナミクスを完全には捉えないかもしれない。
さらに、ビデオベースのコントラスト学習の最近の進歩にもかかわらず、ビデオ顔クラスタリングタスクに有利な自己教師ありクラスタリングフレンドリーな顔表現を学ぼうとする試みはほとんどない。
これらの制限を克服するために,ビデオ内の顔の時間的変化を反映できる映像レベルの表現を直接学習するトランスフォーマーと,トランスフォーマーモデルをトレーニングするためのビデオ集中型自己教師型フレームワークを提案する。
また,顔クラスタリングに関する研究ではまだ研究されていない,エゴセントリックビデオにおける顔クラスタリングについても検討した。
この目的のために、我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを提示、リリースする。
提案手法は,広く使用されているBig Bang Theory(BBT)データセットと新しいEasyCom-Clusteringデータセットの両方で評価する。
その結果,ビデオ集中トランスフォーマーの性能は,両ベンチマークで従来の最先端手法を上回っており,顔映像に対する自己注意的な理解が得られている。
関連論文リスト
- VideoClusterNet: Self-Supervised and Adaptive Face Clustering For Videos [2.0719478063181027]
Video Face Clusteringは、検出された顔のトラックを共通の顔認証でまとめることを目的としている。
この問題は、ビデオフレームにまたがる特定の顔のポーズ、表情、外観、照明のバリエーションが多岐にわたるため、非常に難しい。
本稿では,ジェネリック・フェイスIDモデルを,完全に自己管理された新しいビデオ・フェイス・トラックに適応させることを学習する,新しいビデオ・フェイス・クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T23:34:55Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。