論文の概要: Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols
- arxiv url: http://arxiv.org/abs/2311.02538v1
- Date: Sun, 5 Nov 2023 01:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:03:53.512276
- Title: Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols
- Title(参考訳): 高密度ビデオキャプション:技術,データセット,評価プロトコルに関する調査
- Authors: Iqra Qasim, Alexander Horsch, Dilip K. Prasad
- Abstract要約: アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
- 参考スコア(独自算出の注目度): 53.706461356853445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Untrimmed videos have interrelated events, dependencies, context, overlapping
events, object-object interactions, domain specificity, and other semantics
that are worth highlighting while describing a video in natural language. Owing
to such a vast diversity, a single sentence can only correctly describe a
portion of the video. Dense Video Captioning (DVC) aims at detecting and
describing different events in a given video. The term DVC originated in the
2017 ActivityNet challenge, after which considerable effort has been made to
address the challenge. Dense Video Captioning is divided into three sub-tasks:
(1) Video Feature Extraction (VFE), (2) Temporal Event Localization (TEL), and
(3) Dense Caption Generation (DCG). This review aims to discuss all the studies
that claim to perform DVC along with its sub-tasks and summarize their results.
We also discuss all the datasets that have been used for DVC. Lastly, we
highlight some emerging challenges and future trends in the field.
- Abstract(参考訳): 非トリミングビデオには、相互関連イベント、依存関係、コンテキスト、重なり合ったイベント、オブジェクトとオブジェクトのインタラクション、ドメイン固有性、その他の意味論があり、自然言語でビデオを記述しながら強調する価値がある。
このような膨大な多様性のため、単一文はビデオの一部を正確に記述できるだけである。
Dense Video Captioning (DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
DVCという用語は2017年のActivityNetチャレンジに端を発しており、その後この課題に対処するためにかなりの努力がなされている。
Dense Video Captioningは、(1)ビデオ特徴抽出(VFE)、(2)時間事象局所化(TEL)、(3)Dense Caption Generation(DCG)の3つのサブタスクに分けられる。
本総説は,DVCの実施を主張するすべての研究とそのサブタスクについて論じ,その結果を要約することを目的とする。
また、DVCで使われているすべてのデータセットについても論じる。
最後に、この分野の新たな課題と今後のトレンドを紹介します。
関連論文リスト
- ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。
既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。
本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:27:56Z) - A Survey of Video Datasets for Grounded Event Understanding [34.11140286628736]
マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
論文 参考訳(メタデータ) (2024-06-14T00:36:55Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - A Review of Deep Learning for Video Captioning [111.1557921247882]
ビデオキャプション(VC)は、素早く動き、学際的な研究分野である。
この調査では、注目に基づくアーキテクチャ、グラフネットワーク、強化学習、敵対的ネットワーク、高密度ビデオキャプション(DVC)など、ディープラーニングベースのVCをカバーする。
論文 参考訳(メタデータ) (2023-04-22T15:30:54Z) - Grounded Video Situation Recognition [37.279915290069326]
本稿では,3段階のトランスフォーマーモデルであるVideoWhispererについて紹介する。
我々のモデルは,一群のイベント(クリップ)で同時に動作し,動詞,動詞とロールのペア,名詞,接頭辞のオンザフライを予測します。
論文 参考訳(メタデータ) (2022-10-19T18:38:10Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video
Captioning and Video Question Answering [0.0]
ビデオ内のイベント間の"なぜ"を理解することができるフレームワークであるiPerを提案する。
機械翻訳問題としてのiPerceiveとVideoQAの有効性を示す。
我々のアプローチは、視覚的理解の最先端をさらに進める。
論文 参考訳(メタデータ) (2020-11-16T05:44:45Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。