論文の概要: Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols
- arxiv url: http://arxiv.org/abs/2311.02538v1
- Date: Sun, 5 Nov 2023 01:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:03:53.512276
- Title: Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols
- Title(参考訳): 高密度ビデオキャプション:技術,データセット,評価プロトコルに関する調査
- Authors: Iqra Qasim, Alexander Horsch, Dilip K. Prasad
- Abstract要約: アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
- 参考スコア(独自算出の注目度): 53.706461356853445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Untrimmed videos have interrelated events, dependencies, context, overlapping
events, object-object interactions, domain specificity, and other semantics
that are worth highlighting while describing a video in natural language. Owing
to such a vast diversity, a single sentence can only correctly describe a
portion of the video. Dense Video Captioning (DVC) aims at detecting and
describing different events in a given video. The term DVC originated in the
2017 ActivityNet challenge, after which considerable effort has been made to
address the challenge. Dense Video Captioning is divided into three sub-tasks:
(1) Video Feature Extraction (VFE), (2) Temporal Event Localization (TEL), and
(3) Dense Caption Generation (DCG). This review aims to discuss all the studies
that claim to perform DVC along with its sub-tasks and summarize their results.
We also discuss all the datasets that have been used for DVC. Lastly, we
highlight some emerging challenges and future trends in the field.
- Abstract(参考訳): 非トリミングビデオには、相互関連イベント、依存関係、コンテキスト、重なり合ったイベント、オブジェクトとオブジェクトのインタラクション、ドメイン固有性、その他の意味論があり、自然言語でビデオを記述しながら強調する価値がある。
このような膨大な多様性のため、単一文はビデオの一部を正確に記述できるだけである。
Dense Video Captioning (DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
DVCという用語は2017年のActivityNetチャレンジに端を発しており、その後この課題に対処するためにかなりの努力がなされている。
Dense Video Captioningは、(1)ビデオ特徴抽出(VFE)、(2)時間事象局所化(TEL)、(3)Dense Caption Generation(DCG)の3つのサブタスクに分けられる。
本総説は,DVCの実施を主張するすべての研究とそのサブタスクについて論じ,その結果を要約することを目的とする。
また、DVCで使われているすべてのデータセットについても論じる。
最後に、この分野の新たな課題と今後のトレンドを紹介します。
関連論文リスト
- Subject-Oriented Video Captioning [64.08594243670296]
そこで本稿では,提案するビデオキャプションタスクである主観的ビデオキャプションを提案する。
我々は、MSVDとMSRVTTという2つの広く使われているビデオキャプションデータセットに基づいて、2つの主題指向ビデオキャプションデータセットを構築した。
最初の試みとして、最先端の4つの一般的なビデオキャプションモデルを評価し、大きな性能低下を観測した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - A Review of Deep Learning for Video Captioning [111.1557921247882]
ビデオキャプション(VC)は、素早く動き、学際的な研究分野である。
この調査では、注目に基づくアーキテクチャ、グラフネットワーク、強化学習、敵対的ネットワーク、高密度ビデオキャプション(DVC)など、ディープラーニングベースのVCをカバーする。
論文 参考訳(メタデータ) (2023-04-22T15:30:54Z) - Grounded Video Situation Recognition [37.279915290069326]
本稿では,3段階のトランスフォーマーモデルであるVideoWhispererについて紹介する。
我々のモデルは,一群のイベント(クリップ)で同時に動作し,動詞,動詞とロールのペア,名詞,接頭辞のオンザフライを予測します。
論文 参考訳(メタデータ) (2022-10-19T18:38:10Z) - Taking an Emotional Look at Video Paragraph Captioning [38.98567869515748]
本研究は,映像の段落レベルの記述を生成することを目標として,ビデオ段落のキャプションで実施する。
そこで本研究では,この課題に対して,大規模感情と論理駆動型多言語データセットを構築することを提案する。
このデータセットはEMVPCと名付けられ、毎日53件の広く使われている感情、これらの感情に対応する376件の一般的なシーン、10,291件の高品質ビデオ、20,582件の詳細な文節と英語と中国語のバージョンが含まれている。
論文 参考訳(メタデータ) (2022-03-12T06:19:48Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video
Captioning and Video Question Answering [0.0]
ビデオ内のイベント間の"なぜ"を理解することができるフレームワークであるiPerを提案する。
機械翻訳問題としてのiPerceiveとVideoQAの有効性を示す。
我々のアプローチは、視覚的理解の最先端をさらに進める。
論文 参考訳(メタデータ) (2020-11-16T05:44:45Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。