論文の概要: Semantic Metadata Extraction from Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2211.02982v1
- Date: Sat, 5 Nov 2022 22:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:24:51.088058
- Title: Semantic Metadata Extraction from Dense Video Captioning
- Title(参考訳): 難易度ビデオキャプションからの意味メタデータ抽出
- Authors: Johannes Scherer and Ansgar Scherp and Deepayan Bhowmik
- Abstract要約: 本稿では,自動生成ビデオキャプションから意味メタデータを抽出するフレームワークを提案する。
メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、ビデオカテゴリを考慮する。
我々は、ActivityNet Captionsデータセットのビデオのキャプションを生成するために、2つの最先端の高密度ビデオキャプションモデルを使用している。
- 参考スコア(独自算出の注目度): 5.844015313757266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotation of multimedia data by humans is time-consuming and costly, while
reliable automatic generation of semantic metadata is a major challenge. We
propose a framework to extract semantic metadata from automatically generated
video captions. As metadata, we consider entities, the entities' properties,
relations between entities, and the video category. We employ two
state-of-the-art dense video captioning models with masked transformer (MT) and
parallel decoding (PVDC) to generate captions for videos of the ActivityNet
Captions dataset. Our experiments show that it is possible to extract entities,
their properties, relations between entities, and the video category from the
generated captions. We observe that the quality of the extracted information is
mainly influenced by the quality of the event localization in the video as well
as the performance of the event caption generation.
- Abstract(参考訳): 人間によるマルチメディアデータのアノテーションは時間がかかり費用がかかるが、セマンティックメタデータの自動生成は大きな課題である。
自動生成ビデオキャプションから意味メタデータを抽出するフレームワークを提案する。
メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、およびビデオカテゴリを考える。
我々は2つの最先端の高密度ビデオキャプションモデルとマスク変換器(MT)と並列デコード(PVDC)を用いて、ActivityNet Captionsデータセットのビデオキャプションを生成する。
実験の結果,生成したキャプションから,エンティティ,その特性,エンティティ間の関係,ビデオカテゴリを抽出できることが確認された。
抽出された情報の品質は,映像中のイベントローカライゼーションの質や,イベントキャプション生成の性能に主に影響していると考えられる。
関連論文リスト
- Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-11-12T06:44:24Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - CLIP Meets Video Captioners: Attribute-Aware Representation Learning
Promotes Accurate Captioning [34.46948978082648]
ImageNet Pre-Training (INP) は通常、ビデオコンテンツをエンコードするために使用され、タスク指向ネットワークはスクラッチから微調整され、キャプション生成に対処する。
本稿では,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。
本稿では,映像コンテンツと属性の対応を学習するために,映像キャプションモデルを必要とする補助タスクであるDual Attribute Predictionを紹介する。
論文 参考訳(メタデータ) (2021-11-30T06:37:44Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z) - Exploration of Visual Features and their weighted-additive fusion for
Video Captioning [0.7388859384645263]
ビデオキャプションは、自然言語を使ってビデオ内のイベントを記述するモデルに挑戦する一般的なタスクである。
本研究では,最先端の畳み込みニューラルネットワークから派生した様々な視覚特徴表現を用いて,高レベルの意味的文脈をキャプチャする能力について検討する。
論文 参考訳(メタデータ) (2021-01-14T07:21:13Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。
我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文 参考訳(メタデータ) (2020-07-29T08:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。