論文の概要: Self-Contained Entity Discovery from Captioned Videos
- arxiv url: http://arxiv.org/abs/2208.06662v1
- Date: Sat, 13 Aug 2022 14:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:44:18.509406
- Title: Self-Contained Entity Discovery from Captioned Videos
- Title(参考訳): カプセル映像からの自己完結型エンティティ発見
- Authors: Melika Ayoughi, Pascal Mettes, Paul Groth
- Abstract要約: 本稿では、タスク固有の監督やタスク固有の外部知識源を必要とせずに、ビデオにおける視覚的実体発見のタスクを紹介する。
SC-Friends と SC-BBT はFriends と Big Bang Theory TV シリーズをベースにしている。
- 参考スコア(独自算出の注目度): 15.641523986669457
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces the task of visual named entity discovery in videos
without the need for task-specific supervision or task-specific external
knowledge sources. Assigning specific names to entities (e.g. faces, scenes, or
objects) in video frames is a long-standing challenge. Commonly, this problem
is addressed as a supervised learning objective by manually annotating faces
with entity labels. To bypass the annotation burden of this setup, several
works have investigated the problem by utilizing external knowledge sources
such as movie databases. While effective, such approaches do not work when
task-specific knowledge sources are not provided and can only be applied to
movies and TV series. In this work, we take the problem a step further and
propose to discover entities in videos from videos and corresponding captions
or subtitles. We introduce a three-stage method where we (i) create bipartite
entity-name graphs from frame-caption pairs, (ii) find visual entity
agreements, and (iii) refine the entity assignment through entity-level
prototype construction. To tackle this new problem, we outline two new
benchmarks SC-Friends and SC-BBT based on the Friends and Big Bang Theory TV
series. Experiments on the benchmarks demonstrate the ability of our approach
to discover which named entity belongs to which face or scene, with an accuracy
close to a supervised oracle, just from the multimodal information present in
videos. Additionally, our qualitative examples show the potential challenges of
self-contained discovery of any visual entity for future work. The code and the
data are available on GitHub.
- Abstract(参考訳): 本稿では、タスク固有の監督やタスク固有の外部知識源を必要とせずに、ビデオにおける視覚的実体発見のタスクを紹介する。
特定の名前をビデオフレーム内のエンティティ(顔、シーン、オブジェクトなど)に割り当てることは、長年の課題です。
一般に、この問題は、エンティティラベルを手動でアノテートすることで、教師付き学習目的として対処される。
この設定のアノテーション負担を回避すべく,映画データベースなどの外部知識源を活用して,いくつかの研究を行った。
効果はあるものの、タスク固有の知識ソースが提供されず、映画やテレビシリーズにしか適用できない場合、このようなアプローチは機能しない。
本研究では,この問題をさらに一歩進めて,ビデオや対応する字幕や字幕から動画の実体を発見することを提案する。
我々は3段階の手法を導入する。
(i)フレームキャプションペアから2部実体名グラフを作成する。
(ii)視覚的な実体の合意を見つけること、及び
(iii)エンティティレベルのプロトタイプ構築によりエンティティの割り当てを洗練すること。
この問題に対処するため、我々はFriendsとBig Bang Theory TVシリーズに基づくSC-FriendsとSC-BBTの2つの新しいベンチマークを概説した。
ベンチマークにおける実験は、ビデオに現れるマルチモーダル情報から、どの名前付きエンティティがどの顔やシーンに属しているのかを、監督されたオラクルに近い精度で発見する能力を示しています。
さらに、我々の定性的な例は、将来の作業のための視覚的実体を自己完結した発見の潜在的な課題を示している。
コードとデータはGitHubで公開されている。
関連論文リスト
- Video Summarization: Towards Entity-Aware Captions [75.71891605682931]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - VideoAssembler: Identity-Consistent Video Generation with Reference
Entities using Diffusion Model [97.99027412399198]
VideoAssemblerは、アイデンティティ一貫性のあるビデオ生成のためのエンドツーエンドフレームワークである。
VideoAssemblerは、入力参照エンティティに対してフレキシブルなビデオを作成することに長けている。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - CrowdMOT: Crowdsourcing Strategies for Tracking Multiple Objects in
Videos [23.323919750940508]
我々はCrowdMOTというクラウドソーシングプラットフォームを紹介した。
我々は、慣れ親しんだ物体(別名-人)と馴染みのない物体(別名-細胞)の両方を示すビデオの多様性に関する実験を行う。
本研究は,現在のクラウドソーシングシステムで採用されている手法を用いた場合よりも,高品質なアノテーションを効率よく収集する戦略を強調した。
論文 参考訳(メタデータ) (2020-09-29T19:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。