論文の概要: Self-Contained Entity Discovery from Captioned Videos
- arxiv url: http://arxiv.org/abs/2208.06662v1
- Date: Sat, 13 Aug 2022 14:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:44:18.509406
- Title: Self-Contained Entity Discovery from Captioned Videos
- Title(参考訳): カプセル映像からの自己完結型エンティティ発見
- Authors: Melika Ayoughi, Pascal Mettes, Paul Groth
- Abstract要約: 本稿では、タスク固有の監督やタスク固有の外部知識源を必要とせずに、ビデオにおける視覚的実体発見のタスクを紹介する。
SC-Friends と SC-BBT はFriends と Big Bang Theory TV シリーズをベースにしている。
- 参考スコア(独自算出の注目度): 15.641523986669457
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces the task of visual named entity discovery in videos
without the need for task-specific supervision or task-specific external
knowledge sources. Assigning specific names to entities (e.g. faces, scenes, or
objects) in video frames is a long-standing challenge. Commonly, this problem
is addressed as a supervised learning objective by manually annotating faces
with entity labels. To bypass the annotation burden of this setup, several
works have investigated the problem by utilizing external knowledge sources
such as movie databases. While effective, such approaches do not work when
task-specific knowledge sources are not provided and can only be applied to
movies and TV series. In this work, we take the problem a step further and
propose to discover entities in videos from videos and corresponding captions
or subtitles. We introduce a three-stage method where we (i) create bipartite
entity-name graphs from frame-caption pairs, (ii) find visual entity
agreements, and (iii) refine the entity assignment through entity-level
prototype construction. To tackle this new problem, we outline two new
benchmarks SC-Friends and SC-BBT based on the Friends and Big Bang Theory TV
series. Experiments on the benchmarks demonstrate the ability of our approach
to discover which named entity belongs to which face or scene, with an accuracy
close to a supervised oracle, just from the multimodal information present in
videos. Additionally, our qualitative examples show the potential challenges of
self-contained discovery of any visual entity for future work. The code and the
data are available on GitHub.
- Abstract(参考訳): 本稿では、タスク固有の監督やタスク固有の外部知識源を必要とせずに、ビデオにおける視覚的実体発見のタスクを紹介する。
特定の名前をビデオフレーム内のエンティティ(顔、シーン、オブジェクトなど)に割り当てることは、長年の課題です。
一般に、この問題は、エンティティラベルを手動でアノテートすることで、教師付き学習目的として対処される。
この設定のアノテーション負担を回避すべく,映画データベースなどの外部知識源を活用して,いくつかの研究を行った。
効果はあるものの、タスク固有の知識ソースが提供されず、映画やテレビシリーズにしか適用できない場合、このようなアプローチは機能しない。
本研究では,この問題をさらに一歩進めて,ビデオや対応する字幕や字幕から動画の実体を発見することを提案する。
我々は3段階の手法を導入する。
(i)フレームキャプションペアから2部実体名グラフを作成する。
(ii)視覚的な実体の合意を見つけること、及び
(iii)エンティティレベルのプロトタイプ構築によりエンティティの割り当てを洗練すること。
この問題に対処するため、我々はFriendsとBig Bang Theory TVシリーズに基づくSC-FriendsとSC-BBTの2つの新しいベンチマークを概説した。
ベンチマークにおける実験は、ビデオに現れるマルチモーダル情報から、どの名前付きエンティティがどの顔やシーンに属しているのかを、監督されたオラクルに近い精度で発見する能力を示しています。
さらに、我々の定性的な例は、将来の作業のための視覚的実体を自己完結した発見の潜在的な課題を示している。
コードとデータはGitHubで公開されている。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。