論文の概要: VideoClusterNet: Self-Supervised and Adaptive Clustering For Videos
- arxiv url: http://arxiv.org/abs/2407.12214v1
- Date: Tue, 16 Jul 2024 23:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:58:45.405562
- Title: VideoClusterNet: Self-Supervised and Adaptive Clustering For Videos
- Title(参考訳): VideoClusterNet:ビデオの自己監視と適応的クラスタリング
- Authors: Devesh Walawalkar, Pablo Garrido,
- Abstract要約: Video Face Clusteringは、検出された顔のトラックを共通の顔認証でまとめることを目的としている。
この問題は、ビデオフレームにまたがる特定の顔のポーズ、表情、外観、照明のバリエーションが多岐にわたるため、非常に難しい。
本稿では,ジェネリック・フェイスIDモデルを,完全に自己管理された新しいビデオ・フェイス・トラックに適応させることを学習する,新しいビデオ・フェイス・クラスタリング手法を提案する。
- 参考スコア(独自算出の注目度): 2.0719478063181027
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rise of digital media content production, the need for analyzing movies and TV series episodes to locate the main cast of characters precisely is gaining importance.Specifically, Video Face Clustering aims to group together detected video face tracks with common facial identities. This problem is very challenging due to the large range of pose, expression, appearance, and lighting variations of a given face across video frames. Generic pre-trained Face Identification (ID) models fail to adapt well to the video production domain, given its high dynamic range content and also unique cinematic style. Furthermore, traditional clustering algorithms depend on hyperparameters requiring individual tuning across datasets. In this paper, we present a novel video face clustering approach that learns to adapt a generic face ID model to new video face tracks in a fully self-supervised fashion. We also propose a parameter-free clustering algorithm that is capable of automatically adapting to the finetuned model's embedding space for any input video. Due to the lack of comprehensive movie face clustering benchmarks, we also present a first-of-kind movie dataset: MovieFaceCluster. Our dataset is handpicked by film industry professionals and contains extremely challenging face ID scenarios. Experiments show our method's effectiveness in handling difficult mainstream movie scenes on our benchmark dataset and state-of-the-art performance on traditional TV series datasets.
- Abstract(参考訳): デジタルメディアのコンテンツ制作が進むにつれ、映画やテレビシリーズのエピソードを分析してキャラクタの主役を正確に特定する必要性が高まっており、特にビデオ顔クラスタリングは、検出された顔のトラックを共通の顔のアイデンティティでまとめることを目的としている。
この問題は、ビデオフレームにまたがる特定の顔のポーズ、表情、外観、照明のバリエーションが多岐にわたるため、非常に難しい。
ジェネリックな事前訓練された顔識別(ID)モデルは、高いダイナミックレンジのコンテンツとユニークなシネマティックスタイルを考えると、ビデオ制作領域に適さない。
さらに、従来のクラスタリングアルゴリズムはデータセットをまたいだ個別のチューニングを必要とするハイパーパラメータに依存している。
本稿では,ジェネリック・フェイスIDモデルから新しいビデオ・フェイス・トラックへの適応を,完全自己管理方式で学習する新しいビデオ・フェイス・クラスタリング手法を提案する。
また,任意の入力ビデオに対して,微調整されたモデルの埋め込み空間に自動的に適応できるパラメータフリークラスタリングアルゴリズムを提案する。
包括的な映画顔クラスタリングベンチマークが欠如しているため、第1世代の映画データセットであるMovieFaceClusterも提示する。
私たちのデータセットは、映画業界の専門家によって手作業で作成されており、非常に困難な顔認証シナリオが含まれています。
実験により,従来のテレビシリーズのデータセットでは,ベンチマークデータセットにおける難易度の高いメインストリームのシーンの処理と,最先端の性能が評価された。
関連論文リスト
- FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset [15.917564646478628]
我々はtextbfFaceVid-1K という高品質な多人種顔コレクションを作成している。
我々は,テキスト・トゥ・ビデオ,画像・トゥ・ビデオ,無条件映像生成など,確立されたビデオ生成モデルを用いて実験を行った。
対応するパフォーマンスベンチマークを取得し、公開データセットでトレーニングされたベンチマークと比較し、データセットの優位性を実証する。
論文 参考訳(メタデータ) (2024-09-23T07:27:02Z) - Kalman-Inspired Feature Propagation for Video Face Super-Resolution [78.84881180336744]
時間前に安定した顔を維持するための新しい枠組みを導入する。
カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。
ビデオフレーム間で顔の細部を連続的にキャプチャする手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-08-09T17:57:12Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Face, Body, Voice: Video Person-Clustering with Multiple Modalities [85.0282742801264]
それまでの方法は、顔クラスタリングのより狭いタスクに焦点を当てていた。
現在のデータセットのほとんどは、人物クラスタリングではなく、顔クラスタリングのタスクのみを評価している。
マルチモーダルな人物クラスタリングを評価するためのビデオパーソンクラスタリングデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:59:40Z) - Self-attention aggregation network for video face representation and
recognition [0.0]
本稿では,自己認識機構に基づく映像顔の表現と認識のための新しいモデルアーキテクチャを提案する。
このアプローチは、シングルおよび複数IDのビデオに使用することができる。
論文 参考訳(メタデータ) (2020-10-11T20:57:46Z) - Robust Character Labeling in Movie Videos: Data Resources and
Self-supervised Feature Adaptation [39.373699774220775]
我々は、240のハリウッド映画と弱いラベルでキュレートされた169,000以上のフェイストラックのデータセットを提示する。
これらのトラックからハードサンプルをマイニングするために,埋め込み空間の近傍探索に基づくオフラインアルゴリズムを提案する。
全体として、多視点相関に基づく適応はより差別的で堅牢な顔埋め込みをもたらす。
論文 参考訳(メタデータ) (2020-08-25T22:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。