論文の概要: Face, Body, Voice: Video Person-Clustering with Multiple Modalities
- arxiv url: http://arxiv.org/abs/2105.09939v1
- Date: Thu, 20 May 2021 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:50:02.018961
- Title: Face, Body, Voice: Video Person-Clustering with Multiple Modalities
- Title(参考訳): 顔, 体, 声: 複数のモダリティを持つビデオパーソナライズ
- Authors: Andrew Brown, Vicky Kalogeiton, Andrew Zisserman
- Abstract要約: それまでの方法は、顔クラスタリングのより狭いタスクに焦点を当てていた。
現在のデータセットのほとんどは、人物クラスタリングではなく、顔クラスタリングのタスクのみを評価している。
マルチモーダルな人物クラスタリングを評価するためのビデオパーソンクラスタリングデータセットを提案する。
- 参考スコア(独自算出の注目度): 85.0282742801264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of this work is person-clustering in videos -- grouping
characters according to their identity. Previous methods focus on the narrower
task of face-clustering, and for the most part ignore other cues such as the
person's voice, their overall appearance (hair, clothes, posture), and the
editing structure of the videos. Similarly, most current datasets evaluate only
the task of face-clustering, rather than person-clustering. This limits their
applicability to downstream applications such as story understanding which
require person-level, rather than only face-level, reasoning. In this paper we
make contributions to address both these deficiencies: first, we introduce a
Multi-Modal High-Precision Clustering algorithm for person-clustering in videos
using cues from several modalities (face, body, and voice). Second, we
introduce a Video Person-Clustering dataset, for evaluating multi-modal
person-clustering. It contains body-tracks for each annotated character,
face-tracks when visible, and voice-tracks when speaking, with their associated
features. The dataset is by far the largest of its kind, and covers films and
TV-shows representing a wide range of demographics. Finally, we show the
effectiveness of using multiple modalities for person-clustering, explore the
use of this new broad task for story understanding through character
co-occurrences, and achieve a new state of the art on all available datasets
for face and person-clustering.
- Abstract(参考訳): この研究の目的は、ビデオ内の人的クラスタ化である -- アイデンティティに応じて文字をグループ化することだ。
それまでの方法は、顔のクラスタリングのより狭いタスクに焦点を合わせており、ほとんどの場合、人の声、全体的な外観(髪、衣服、姿勢)、ビデオの編集構造など、他の方法を無視している。
同様に、現在のデータセットのほとんどは、人物クラスタリングではなく、顔クラスタリングのタスクのみを評価する。
これにより、顔レベルの推論だけでなく、人レベルを必要とするストーリー理解のような下流アプリケーションへの適用性が制限される。
本稿では,これら2つの欠陥に対処するためのコントリビューションを行う。まず,複数のモダリティ(顔,体,声)のキューを用いて,ビデオ中の人物クラスタリングのためのマルチモーダル高精度クラスタリングアルゴリズムを提案する。
次に,マルチモーダルなパーソナライズ評価のためのビデオパーソナライズデータセットを提案する。
注釈付きキャラクタ毎のボディトラック、可視時のフェイストラック、発話時の音声トラック、関連する特徴を含む。
このデータセットは、その種類の中で最も大きく、幅広い人口層を代表する映画やテレビ番組をカバーしている。
最後に,パーソナライズ・クラスタ化に複数のモダリティを用いた場合の有効性を示すとともに,この新たな広範にわたるタスクを文字共起を通じて活用し,顔とパーソナライズのための利用可能なデータセットの新たな状態を実現する。
関連論文リスト
- Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - VideoClusterNet: Self-Supervised and Adaptive Face Clustering For Videos [2.0719478063181027]
Video Face Clusteringは、検出された顔のトラックを共通の顔認証でまとめることを目的としている。
この問題は、ビデオフレームにまたがる特定の顔のポーズ、表情、外観、照明のバリエーションが多岐にわたるため、非常に難しい。
本稿では,ジェネリック・フェイスIDモデルを,完全に自己管理された新しいビデオ・フェイス・トラックに適応させることを学習する,新しいビデオ・フェイス・クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T23:34:55Z) - Multi-Modal Proxy Learning Towards Personalized Visual Multiple Clustering [8.447067012487866]
マルチMaPは,マルチモーダルなプロキシ学習プロセスを用いた新しい手法である。
キーワードを通じてユーザの関心をキャプチャすると同時に、関連するクラスタリングの特定を容易にする。
実験の結果,Multi-MaPは全ベンチマークのマルチクラスタ・ビジョンタスクにおいて常に最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-24T05:20:42Z) - Unified and Dynamic Graph for Temporal Character Grouping in Long Videos [31.192044026127032]
ビデオ時間的キャラクタグループ化は、ビデオ内の主要なキャラクタの出現モーメントを、そのアイデンティティに応じて特定する。
最近の研究は、教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。
時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-27T13:22:55Z) - Relation-Aware Distribution Representation Network for Person Clustering
with Multiple Modalities [17.569843539515734]
顔、体、声を含む多モードの手がかりでクラスタリングする人は、様々なタスクに欠かせない。
マルチモーダルな手がかりの分布表現を生成するためのリレーショナル・アウェア分布表現ネットワーク(RAD-Net)を提案する。
提案手法は,ビデオパーソンクラスタリングデータセットにおけるFスコアの+6%と+8.2%を大幅に改善する。
論文 参考訳(メタデータ) (2023-08-01T15:04:56Z) - GOCA: Guided Online Cluster Assignment for Self-Supervised Video
Representation Learning [49.69279760597111]
クラスタリングは教師なし学習におけるユビキタスなツールです。
既存の自己教師型表現学習手法の多くは、視覚的に支配的な特徴に基づくクラスタサンプルが一般的である。
具体的には、各ビューの初期クラスタ割り当てを事前に使用して、他のビューの最終クラスタ割り当てをガイドする、新しいクラスタリング戦略を提案する。
論文 参考訳(メタデータ) (2022-07-20T19:26:55Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。