論文の概要: Robust Character Labeling in Movie Videos: Data Resources and
Self-supervised Feature Adaptation
- arxiv url: http://arxiv.org/abs/2008.11289v2
- Date: Fri, 25 Feb 2022 23:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 04:28:36.801721
- Title: Robust Character Labeling in Movie Videos: Data Resources and
Self-supervised Feature Adaptation
- Title(参考訳): 映画映像におけるロバスト文字ラベル:データ資源と自己監督的特徴適応
- Authors: Krishna Somandepalli, Rajat Hebbar, Shrikanth Narayanan
- Abstract要約: 我々は、240のハリウッド映画と弱いラベルでキュレートされた169,000以上のフェイストラックのデータセットを提示する。
これらのトラックからハードサンプルをマイニングするために,埋め込み空間の近傍探索に基づくオフラインアルゴリズムを提案する。
全体として、多視点相関に基づく適応はより差別的で堅牢な顔埋め込みをもたらす。
- 参考スコア(独自算出の注目度): 39.373699774220775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust face clustering is a vital step in enabling computational
understanding of visual character portrayal in media. Face clustering for
long-form content is challenging because of variations in appearance and lack
of supporting large-scale labeled data. Our work in this paper focuses on two
key aspects of this problem: the lack of domain-specific training or benchmark
datasets, and adapting face embeddings learned on web images to long-form
content, specifically movies. First, we present a dataset of over 169,000 face
tracks curated from 240 Hollywood movies with weak labels on whether a pair of
face tracks belong to the same or a different character. We propose an offline
algorithm based on nearest-neighbor search in the embedding space to mine
hard-examples from these tracks. We then investigate triplet-loss and multiview
correlation-based methods for adapting face embeddings to hard-examples. Our
experimental results highlight the usefulness of weakly labeled data for
domain-specific feature adaptation. Overall, we find that multiview
correlation-based adaptation yields more discriminative and robust face
embeddings. Its performance on downstream face verification and clustering
tasks is comparable to that of the state-of-the-art results in this domain. We
also present the SAIL-Movie Character Benchmark corpus developed to augment
existing benchmarks. It consists of racially diverse actors and provides
face-quality labels for subsequent error analysis. We hope that the large-scale
datasets developed in this work can further advance automatic character
labeling in videos. All resources are available freely at
https://sail.usc.edu/~ccmi/multiface.
- Abstract(参考訳): ロバストな顔クラスタリングは、メディアにおける視覚的キャラクタの表現を計算的に理解するための重要なステップである。
外観の変化と大規模ラベル付きデータのサポート不足のため、長文コンテンツのための顔クラスタリングは困難である。
この論文では、ドメイン固有のトレーニングやベンチマークデータセットの欠如、webイメージで学習された顔埋め込みを長文コンテンツ、特に映画に適応させるという、この問題の2つの重要な側面に焦点を当てています。
まず、1組のフェイストラックが同一または異なるキャラクターに属するかどうかについて、240本のハリウッド映画から収集された169,000以上のフェイストラックのデータセットを示す。
これらのトラックからハードサンプルをマイニングするために,埋め込み空間の近傍探索に基づくオフラインアルゴリズムを提案する。
次に,トリプレットロスとマルチビュー相関に基づく顔埋め込みをハードサンプルに適用する手法について検討する。
実験結果から,弱いラベル付きデータによる特徴適応の有用性が示された。
全体として、多視点相関に基づく適応はより差別的で堅牢な顔埋め込みをもたらす。
下流のフェース検証とクラスタリングタスクのパフォーマンスは、このドメインにおける最先端の結果と同等である。
また,既存のベンチマークを強化するために開発されたSAIL-Movie Character Benchmark corpusを提案する。
人種的に多様な俳優で構成され、その後のエラー分析のために顔品質のラベルを提供する。
この研究で開発された大規模データセットが,ビデオの自動文字ラベリングをさらに前進させることを願っている。
すべてのリソースはhttps://sail.usc.edu/~ccmi/multifaceで無料で利用できる。
関連論文リスト
- VideoClusterNet: Self-Supervised and Adaptive Face Clustering For Videos [2.0719478063181027]
Video Face Clusteringは、検出された顔のトラックを共通の顔認証でまとめることを目的としている。
この問題は、ビデオフレームにまたがる特定の顔のポーズ、表情、外観、照明のバリエーションが多岐にわたるため、非常に難しい。
本稿では,ジェネリック・フェイスIDモデルを,完全に自己管理された新しいビデオ・フェイス・トラックに適応させることを学習する,新しいビデオ・フェイス・クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T23:34:55Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Is this Harmful? Learning to Predict Harmfulness Ratings from Video [15.059547998989537]
現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。
モデリング選択に関する詳細な研究を行い、視覚とオーディオのモダリティを組み合わせることで大きなメリットが得られます。
データセットは公開時に公開します。
論文 参考訳(メタデータ) (2021-06-15T17:57:12Z) - Face, Body, Voice: Video Person-Clustering with Multiple Modalities [85.0282742801264]
それまでの方法は、顔クラスタリングのより狭いタスクに焦点を当てていた。
現在のデータセットのほとんどは、人物クラスタリングではなく、顔クラスタリングのタスクのみを評価している。
マルチモーダルな人物クラスタリングを評価するためのビデオパーソンクラスタリングデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:59:40Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - Connecting Images through Time and Sources: Introducing Low-data,
Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。
Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文 参考訳(メタデータ) (2021-03-19T10:54:51Z) - CharacterGAN: Few-Shot Keypoint Character Animation and Reposing [64.19520387536741]
本稿では,与えられた文字の少数のサンプルに対してのみトレーニング可能な生成モデルである characterGAN を紹介する。
我々のモデルはキーポイント位置に基づいて新しいポーズを生成し、インタラクティブなフィードバックを提供しながらリアルタイムで修正することができる。
提案手法は,近年のベースラインよりも優れており,多様なキャラクタに対してリアルなアニメーションを生成する。
論文 参考訳(メタデータ) (2021-02-05T12:38:15Z) - Red Carpet to Fight Club: Partially-supervised Domain Transfer for Face
Recognition in Violent Videos [12.534785814117065]
種々の有害条件下でのクロスドメイン認識を研究するために,WildestFacesデータセットを導入した。
我々は、このクリーンで暴力的な認識タスクのための厳密な評価プロトコルを確立し、提案したデータセットと方法の詳細な分析を示す。
論文 参考訳(メタデータ) (2020-09-16T09:45:33Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。