論文の概要: Dynamic Character Graph via Online Face Clustering for Movie Analysis
- arxiv url: http://arxiv.org/abs/2007.14913v1
- Date: Wed, 29 Jul 2020 15:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 20:54:25.587435
- Title: Dynamic Character Graph via Online Face Clustering for Movie Analysis
- Title(参考訳): オンライン顔クラスタリングによる映画解析のための動的文字グラフ
- Authors: Prakhar Kulshreshtha and Tanaya Guha
- Abstract要約: 本稿では,文字相互作用の時間的進化を捉えた動的文字グラフを構築するための教師なしアプローチを提案する。
提案手法には2つの要素がある: (i) ビデオストリーム中の文字が出現するのを検出するオンラインの顔クラスタリングアルゴリズム、および (ii) 得られたクラスタの時間的ダイナミクスを用いてCIGを同時生成する。
- 参考スコア(独自算出の注目度): 15.985643632843761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An effective approach to automated movie content analysis involves building a
network (graph) of its characters. Existing work usually builds a static
character graph to summarize the content using metadata, scripts or manual
annotations. We propose an unsupervised approach to building a dynamic
character graph that captures the temporal evolution of character interaction.
We refer to this as the character interaction graph(CIG). Our approach has two
components:(i) an online face clustering algorithm that discovers the
characters in the video stream as they appear, and (ii) simultaneous creation
of a CIG using the temporal dynamics of the resulting clusters. We demonstrate
the usefulness of the CIG for two movie analysis tasks: narrative structure
(acts) segmentation, and major character retrieval. Our evaluation on
full-length movies containing more than 5000 face tracks shows that the
proposed approach achieves superior performance for both the tasks.
- Abstract(参考訳): 自動映画コンテンツ分析への効果的なアプローチは、キャラクターのネットワーク(graph)を構築することである。
既存の作業は通常、メタデータやスクリプト、手動アノテーションを使ってコンテンツを要約するために静的な文字グラフを構築する。
文字相互作用の時間的進化を捉える動的文字グラフを構築するための教師なしアプローチを提案する。
これを文字相互作用グラフ(CIG)と呼ぶ。
私たちのアプローチには2つの要素があります
(i)ビデオストリームのキャラクタが現れるのを検知するオンライン顔クラスタリングアルゴリズム
(II) 得られたクラスタの時間的ダイナミクスを用いたCIGの同時生成。
本稿では,CIGの物語構造(行為)セグメンテーションと主要キャラクタ検索という2つの映画解析タスクにおける有用性を示す。
5000本以上のフェーストラックを含む全編映画について評価した結果,提案手法が両課題とも優れた性能を達成していることがわかった。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - A Hybrid Graph Network for Complex Activity Detection in Video [40.843533889724924]
複雑なアクティビティ検出(CompAD)は、分析を長期的なアクティビティに拡張する。
本稿では,局所的な(短期的な)動的シーンを符号化したグラフに適用した注目と,全体の長期的活動をモデル化した時間グラフを組み合わせたハイブリッドグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T15:49:35Z) - Unified and Dynamic Graph for Temporal Character Grouping in Long Videos [31.192044026127032]
ビデオ時間的キャラクタグループ化は、ビデオ内の主要なキャラクタの出現モーメントを、そのアイデンティティに応じて特定する。
最近の研究は、教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。
時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-27T13:22:55Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Iterative Knowledge Exchange Between Deep Learning and Space-Time
Spectral Clustering for Unsupervised Segmentation in Videos [17.47403549514259]
映像における非監視物体分割のためのデュアルシステムを提案する。
最初のモジュールは、ビデオ内のオブジェクトを発見する時空グラフです。
第2のモジュールは、強力なオブジェクト機能を学ぶディープネットワークである。
論文 参考訳(メタデータ) (2020-12-13T18:36:18Z) - Robust Character Labeling in Movie Videos: Data Resources and
Self-supervised Feature Adaptation [39.373699774220775]
我々は、240のハリウッド映画と弱いラベルでキュレートされた169,000以上のフェイストラックのデータセットを提示する。
これらのトラックからハードサンプルをマイニングするために,埋め込み空間の近傍探索に基づくオフラインアルゴリズムを提案する。
全体として、多視点相関に基づく適応はより差別的で堅牢な顔埋め込みをもたらす。
論文 参考訳(メタデータ) (2020-08-25T22:07:41Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z) - Structural Temporal Graph Neural Networks for Anomaly Detection in
Dynamic Graphs [54.13919050090926]
本稿では,動的グラフの異常エッジを検出するために,エンドツーエンドの時間構造グラフニューラルネットワークモデルを提案する。
特に,まずターゲットエッジを中心にした$h$ホップ囲むサブグラフを抽出し,各ノードの役割を識別するノードラベル機能を提案する。
抽出した特徴に基づき,GRU(Gated Recurrent Unit)を用いて,異常検出のための時間的情報を取得する。
論文 参考訳(メタデータ) (2020-05-15T09:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。