論文の概要: Character-focused Video Thumbnail Retrieval
- arxiv url: http://arxiv.org/abs/2204.06563v1
- Date: Wed, 13 Apr 2022 05:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 12:18:13.267828
- Title: Character-focused Video Thumbnail Retrieval
- Title(参考訳): 文字中心のビデオサムネイル検索
- Authors: Shervin Ardeshir, Nagendra Kamath, Hossein Taghavi
- Abstract要約: 我々はCNNモデルをトレーニングし、ビデオサムネイルで顔が許容できる表情を持っているかどうかを測定する。
このモデルは、アートワークやサムネイルから抽出された顔と、ランダムなフレームから抽出された顔とを区別するように訓練されている。
顔のクラスタリングを用いて、映像中の文字を識別し、文字の発音(出現頻度)をキャプチャするグラフを形成する。
- 参考スコア(独自算出の注目度): 6.445605125467574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We explore retrieving character-focused video frames as candidates for being
video thumbnails. To evaluate each frame of the video based on the character(s)
present in it, characters (faces) are evaluated in two aspects:
Facial-expression: We train a CNN model to measure whether a face has an
acceptable facial expression for being in a video thumbnail. This model is
trained to distinguish faces extracted from artworks/thumbnails, from faces
extracted from random frames of videos. Prominence and interactions:
Character(s) in the thumbnail should be important character(s) in the video, to
prevent the algorithm from suggesting non-representative frames as candidates.
We use face clustering to identify the characters in the video, and form a
graph in which the prominence (frequency of appearance) of the character(s),
and their interactions (co-occurrence) are captured. We use this graph to infer
the relevance of the characters present in each candidate frame. Once every
face is scored based on the two criteria above, we infer frame level scores by
combining the scores for all the faces within a frame.
- Abstract(参考訳): ビデオサムネイルの候補として文字中心のビデオフレームの検索について検討する。
映像の各フレームをキャラクタに基づいて評価するために、キャラクタ(顔)を2つの側面で評価する: 顔表現: 顔がビデオサムネイルに入るのに許容される表情を持つかどうかを測定するために、cnnモデルを訓練する。
このモデルは、ビデオのランダムフレームから抽出された顔と、アートワーク/thumbnailsから抽出された顔とを区別するように訓練されている。
プロミネンスとインタラクション:サムネイル内のキャラクタは、アルゴリズムが非表現フレームを候補として提案することを防ぎ、ビデオにおいて重要なキャラクタであるべきである。
顔のクラスタリングを用いて、映像中の文字を識別し、文字のプロミネンス(出現頻度)とそれらの相互作用(共起)をキャプチャするグラフを形成する。
このグラフを用いて、各候補フレームに存在する文字の関連性を推定する。
上記の2つの基準に基づいて各顔が得点されると、フレーム内のすべての顔のスコアを組み合わせてフレームレベルスコアを推定する。
関連論文リスト
- VideoClusterNet: Self-Supervised and Adaptive Face Clustering For Videos [2.0719478063181027]
Video Face Clusteringは、検出された顔のトラックを共通の顔認証でまとめることを目的としている。
この問題は、ビデオフレームにまたがる特定の顔のポーズ、表情、外観、照明のバリエーションが多岐にわたるため、非常に難しい。
本稿では,ジェネリック・フェイスIDモデルを,完全に自己管理された新しいビデオ・フェイス・トラックに適応させることを学習する,新しいビデオ・フェイス・クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T23:34:55Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Facial Expression Re-targeting from a Single Character [0.0]
3Dキャラクタの表情を表現するための標準的な方法は、ブレンドシャッフルである。
私たちは、各顔器官のランドマークをグループ化し、それらを関連するブレンドシェープ重みに結合する独自のディープラーニングアーキテクチャを開発しました。
我々のアプローチは、様々なユーザや表現のあるビデオでテストすると、より高いMOSが68%、低いMSEが44.2%に達した。
論文 参考訳(メタデータ) (2023-06-21T11:35:22Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Audio visual character profiles for detecting background characters in
entertainment media [37.28070242751129]
本稿では,主に映画やテレビ番組のメディア描写における背景人物の表現と描写の理解に焦点を当てる。
能動型話者ローカライゼーションシステムを用いて、高信頼の顔音声アソシエーションを抽出し、話し手のための音声視覚プロファイルを生成する。
テレビ番組の背景文字に対するアノテーションを提供する背景文字データセットをキュレートし,それを用いて背景文字検出フレームワークの性能を評価する。
論文 参考訳(メタデータ) (2022-03-21T22:02:31Z) - Face, Body, Voice: Video Person-Clustering with Multiple Modalities [85.0282742801264]
それまでの方法は、顔クラスタリングのより狭いタスクに焦点を当てていた。
現在のデータセットのほとんどは、人物クラスタリングではなく、顔クラスタリングのタスクのみを評価している。
マルチモーダルな人物クラスタリングを評価するためのビデオパーソンクラスタリングデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:59:40Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Robust Character Labeling in Movie Videos: Data Resources and
Self-supervised Feature Adaptation [39.373699774220775]
我々は、240のハリウッド映画と弱いラベルでキュレートされた169,000以上のフェイストラックのデータセットを提示する。
これらのトラックからハードサンプルをマイニングするために,埋め込み空間の近傍探索に基づくオフラインアルゴリズムを提案する。
全体として、多視点相関に基づく適応はより差別的で堅牢な顔埋め込みをもたらす。
論文 参考訳(メタデータ) (2020-08-25T22:07:41Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。