論文の概要: Automated Video Labelling: Identifying Faces by Corroborative Evidence
- arxiv url: http://arxiv.org/abs/2102.05645v1
- Date: Wed, 10 Feb 2021 18:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 20:29:47.904039
- Title: Automated Video Labelling: Identifying Faces by Corroborative Evidence
- Title(参考訳): ビデオの自動ラベリング: 確証による顔の識別
- Authors: Andrew Brown, Ernesto Coto, Andrew Zisserman
- Abstract要約: 本稿では,複数のエビデンスソースと複数のモダリティを組み合わせることで,テレビ放送などのビデオアーカイブ内のすべての顔を自動的にラベル付けする手法を提案する。
本研究では,人物が有名であるか否かを画像検索エンジンを用いて判定する,新しい,シンプルな手法を提案する。
あまり有名でない人であっても、画像検索エンジンは、シーンやスピーチで命名された顔の正確なラベル付けに役立てることができる。
- 参考スコア(独自算出の注目度): 79.44208317138784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for automatically labelling all faces in video archives,
such as TV broadcasts, by combining multiple evidence sources and multiple
modalities (visual and audio). We target the problem of ever-growing online
video archives, where an effective, scalable indexing solution cannot require a
user to provide manual annotation or supervision. To this end, we make three
key contributions: (1) We provide a novel, simple, method for determining if a
person is famous or not using image-search engines. In turn this enables a
face-identity model to be built reliably and robustly, and used for high
precision automatic labelling; (2) We show that even for less-famous people,
image-search engines can then be used for corroborative evidence to accurately
label faces that are named in the scene or the speech; (3) Finally, we
quantitatively demonstrate the benefits of our approach on different video
domains and test settings, such as TV shows and news broadcasts. Our method
works across three disparate datasets without any explicit domain adaptation,
and sets new state-of-the-art results on all the public benchmarks.
- Abstract(参考訳): 本稿では,複数のエビデンスソースと複数のモダリティ(視覚とオーディオ)を組み合わせることで,テレビ放送などのビデオアーカイブ内のすべての顔を自動的にラベル付けする手法を提案する。
効率的でスケーラブルなインデックス作成ソリューションでは、ユーザーが手動のアノテーションや監督を提供する必要がなくなるオンラインビデオアーカイブの継続的な増加の問題をターゲットにしています。
この目的のために我々は,(1)人物が有名であるか否かを画像検索エンジンを用いて判断する,新しい,シンプルな方法を提案する。
これにより、顔認識モデルを確実かつ堅牢に構築し、高精度な自動ラベリングに使用することが可能になり、(2)あまり有名でない人でも、画像検索エンジンを使用してシーンやスピーチに名前のついた顔を正確にラベル付けすることができること、(3)テレビ番組やニュースブロードキャストなど、さまざまなビデオドメインやテスト設定に対するアプローチの利点を定量的に実証します。
本手法は,明示的なドメイン適応を伴わない3つの異なるデータセットにまたがって動作し,すべての公開ベンチマークで新たな最新結果をセットする。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features [0.0]
グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
論文 参考訳(メタデータ) (2023-12-06T08:58:11Z) - Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文 参考訳(メタデータ) (2023-07-10T15:47:13Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Automatic Generation of Descriptive Titles for Video Clips Using Deep
Learning [2.724141845301679]
ビデオのタイトルと簡潔な要約を生成するために,画像/映像キャプション手法と自然言語処理システムを利用したアーキテクチャを提案する。
このようなシステムは、映画館業界、ビデオ検索エンジン、セキュリティ監視、ビデオデータベース/倉庫、データセンターなど、多くのアプリケーションドメインで利用することができます。
論文 参考訳(メタデータ) (2021-04-07T18:14:18Z) - Face Forensics in the Wild [121.23154918448618]
我々は、ffiw-10kと呼ばれる新しい大規模データセットを構築し、高品質の偽造ビデオ1万本を含む。
操作手順は完全自動で、ドメイン対逆品質評価ネットワークによって制御されます。
さらに,多人数顔偽造検出の課題に取り組むための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T05:06:19Z) - Self-attention aggregation network for video face representation and
recognition [0.0]
本稿では,自己認識機構に基づく映像顔の表現と認識のための新しいモデルアーキテクチャを提案する。
このアプローチは、シングルおよび複数IDのビデオに使用することができる。
論文 参考訳(メタデータ) (2020-10-11T20:57:46Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。