論文の概要: Audio visual character profiles for detecting background characters in
entertainment media
- arxiv url: http://arxiv.org/abs/2203.11368v1
- Date: Mon, 21 Mar 2022 22:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 10:53:11.843850
- Title: Audio visual character profiles for detecting background characters in
entertainment media
- Title(参考訳): エンタテインメントメディアにおける背景キャラクタ検出のための音声ビジュアルキャラクタプロファイル
- Authors: Rahul Sharma and Shrikanth Narayanan
- Abstract要約: 本稿では,主に映画やテレビ番組のメディア描写における背景人物の表現と描写の理解に焦点を当てる。
能動型話者ローカライゼーションシステムを用いて、高信頼の顔音声アソシエーションを抽出し、話し手のための音声視覚プロファイルを生成する。
テレビ番組の背景文字に対するアノテーションを提供する背景文字データセットをキュレートし,それを用いて背景文字検出フレームワークの性能を評価する。
- 参考スコア(独自算出の注目度): 37.28070242751129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An essential goal of computational media intelligence is to support
understanding how media stories -- be it news, commercial or entertainment
media -- represent and reflect society and these portrayals are perceived.
People are a central element of media stories. This paper focuses on
understanding the representation and depiction of background characters in
media depictions, primarily movies and TV shows. We define the background
characters as those who do not participate vocally in any scene throughout the
movie and address the problem of localizing background characters in videos. We
use an active speaker localization system to extract high-confidence
face-speech associations and generate audio-visual profiles for talking
characters in a movie by automatically clustering them. Using a face
verification system, we then prune all the face-tracks which match any of the
generated character profiles and obtain the background character face-tracks.
We curate a background character dataset which provides annotations for
background character for a set of TV shows, and use it to evaluate the
performance of the background character detection framework.
- Abstract(参考訳): 計算メディアインテリジェンスの重要な目標は、メディアストーリー(ニュース、コマーシャル、エンターテイメントメディアなど)が社会をどう表現し、反映し、これらの描写が認識されるかを理解することである。
人々はメディアストーリーの中心的な要素です。
本稿では,主に映画やテレビ番組のメディア描写における背景人物の表現と描写の理解に焦点を当てる。
我々は、背景文字を、映画中のあらゆる場面に声で参加しない人物と定義し、映像中の背景文字をローカライズする問題に対処する。
能動型話者定位システムを用いて,高信頼な対声関係を抽出し,自動クラスタリングにより映画内の発話キャラクタの音声・視覚プロファイルを生成する。
顔認証システムを用いて,生成したキャラクタプロファイルと一致するすべての顔追跡を行い,背景キャラクタのフェイストラックを取得する。
テレビ番組の背景キャラクタのためのアノテーションを提供する背景キャラクタデータセットをキュレートし,それを用いて背景キャラクタ検出フレームワークの性能評価を行う。
関連論文リスト
- Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Unsupervised active speaker detection in media content using cross-modal
information [37.28070242751129]
テレビ番組や映画などのメディアコンテンツにおけるアクティブな話者検出のためのクロスモーダルな教師なしフレームワークを提案する。
音声と顔の話者識別情報を活用し, アクティブな話者検出を音声-顔の割り当てタスクとして定式化する。
最先端の完全教師付き手法に対する競合性能を示す。
論文 参考訳(メタデータ) (2022-09-24T00:51:38Z) - TVShowGuess: Character Comprehension in Stories as Speaker Guessing [23.21452223968301]
物語における架空のキャラクターを理解するための機械のスキルを評価するための新しいタスクを提案する。
タスクであるTVShowGuessは、TVシリーズのスクリプトをベースとして、シーンの背景や対話に基づいて匿名のメインキャラクターを推測する形式をとっている。
我々の人間による研究は、キャラクターの個性、事実、個性体験の記憶など、複数の種類の人格の理解をカバーしている。
論文 参考訳(メタデータ) (2022-04-16T05:15:04Z) - Character-focused Video Thumbnail Retrieval [6.445605125467574]
我々はCNNモデルをトレーニングし、ビデオサムネイルで顔が許容できる表情を持っているかどうかを測定する。
このモデルは、アートワークやサムネイルから抽出された顔と、ランダムなフレームから抽出された顔とを区別するように訓練されている。
顔のクラスタリングを用いて、映像中の文字を識別し、文字の発音(出現頻度)をキャプチャするグラフを形成する。
論文 参考訳(メタデータ) (2022-04-13T05:40:42Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z) - Cross modal video representations for weakly supervised active speaker
localization [39.67239953795999]
視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
映画コンテンツ中のアクティブな話者をローカライズするための弱教師付きシステムを提案する。
また,音声ビジュアル・フレームワークにおける音声活動検出の課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-03-09T18:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。