Fugu-MT 論文翻訳(概要): Event and Entity Extraction from Generated Video Captions

論文の概要: Event and Entity Extraction from Generated Video Captions

arxiv url: http://arxiv.org/abs/2211.02982v2
Date: Tue, 15 Aug 2023 21:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 17:53:30.856397
Title: Event and Entity Extraction from Generated Video Captions
Title（参考訳）: 生成ビデオキャプションからのイベントとエンティティ抽出
Authors: Johannes Scherer and Ansgar Scherp and Deepayan Bhowmik
Abstract要約: 本稿では,自動生成ビデオキャプションから意味メタデータを抽出するフレームワークを提案する。メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、ビデオカテゴリを考慮する。我々は、ActivityNet Captionsデータセットのビデオのキャプションを生成するために、2つの最先端の高密度ビデオキャプションモデルを使用している。
参考スコア（独自算出の注目度）: 4.987670632802288
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Annotation of multimedia data by humans is time-consuming and costly, while reliable automatic generation of semantic metadata is a major challenge. We propose a framework to extract semantic metadata from automatically generated video captions. As metadata, we consider entities, the entities' properties, relations between entities, and the video category. We employ two state-of-the-art dense video captioning models with masked transformer (MT) and parallel decoding (PVDC) to generate captions for videos of the ActivityNet Captions dataset. Our experiments show that it is possible to extract entities, their properties, relations between entities, and the video category from the generated captions. We observe that the quality of the extracted information is mainly influenced by the quality of the event localization in the video as well as the performance of the event caption generation.
Abstract（参考訳）: 人間によるマルチメディアデータのアノテーションは時間がかかり費用がかかるが、セマンティックメタデータの自動生成は大きな課題である。自動生成ビデオキャプションから意味メタデータを抽出するフレームワークを提案する。メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、およびビデオカテゴリを考える。我々は2つの最先端の高密度ビデオキャプションモデルとマスク変換器(MT)と並列デコード(PVDC)を用いて、ActivityNet Captionsデータセットのビデオキャプションを生成する。実験の結果,生成したキャプションから,エンティティ,その特性,エンティティ間の関係,ビデオカテゴリを抽出できることが確認された。抽出された情報の品質は,映像中のイベントローカライゼーションの質や,イベントキャプション生成の性能に主に影響していると考えられる。

関連論文リスト

TA-Prompting: Enhancing Video Large Language Models for Dense Video Captioning via Temporal Anchors [40.48528326378281]
デンスビデオキャプションは、入力ビデオ全体の時間的局所化イベントを解釈し、記述することを目的としている。近年の最先端技術は,ビデオデータに詳細なモーメント記述を提供するために,大規模言語モデル(LLM)を活用している。本稿では,TA-Promptingを提案する。TA-Promptingはテンポラルアンカーを介し,イベントを正確にローカライズし,ビデオLLMに時間対応のビデオイベント理解を促す。
論文参考訳（メタデータ） (2026-01-06T10:45:53Z)
VoCap: Video Object Captioning and Segmentation from Any Prompt [78.90048335805047]
VoCapは、ビデオセグメンテーションと様々なモダリティの迅速な理解を消費するフレキシブルモデルである。プロンプト可能なビデオオブジェクトのセグメンテーション、参照、オブジェクトキャプションに対処する。本モデルでは,表現対象のセグメンテーションについて,最新の結果が得られる。
論文参考訳（メタデータ） (2025-08-29T17:43:58Z)
Controllable Hybrid Captioner for Improved Long-form Video Understanding [0.24578723416255746]
ビデオデータは極めて密度が高く、高次元である。テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文参考訳（メタデータ） (2025-07-22T22:09:00Z)
Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文参考訳（メタデータ） (2024-11-12T06:44:24Z)
SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文参考訳（メタデータ） (2023-12-20T17:44:32Z)
Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文参考訳（メタデータ） (2023-12-01T23:56:00Z)
VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文参考訳（メタデータ） (2023-11-15T19:51:57Z)
CLIP Meets Video Captioners: Attribute-Aware Representation Learning Promotes Accurate Captioning [34.46948978082648]
ImageNet Pre-Training (INP) は通常、ビデオコンテンツをエンコードするために使用され、タスク指向ネットワークはスクラッチから微調整され、キャプション生成に対処する。本稿では,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。本稿では,映像コンテンツと属性の対応を学習するために,映像キャプションモデルを必要とする補助タスクであるDual Attribute Predictionを紹介する。
論文参考訳（メタデータ） (2021-11-30T06:37:44Z)
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。 AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文参考訳（メタデータ） (2021-05-10T16:30:46Z)
Referring Segmentation in Images and Videos with Cross-Modal Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文参考訳（メタデータ） (2021-02-09T11:27:59Z)
Exploration of Visual Features and their weighted-additive fusion for Video Captioning [0.7388859384645263]
ビデオキャプションは、自然言語を使ってビデオ内のイベントを記述するモデルに挑戦する一般的なタスクである。本研究では,最先端の畳み込みニューラルネットワークから派生した様々な視覚特徴表現を用いて,高レベルの意味的文脈をキャプチャする能力について検討する。
論文参考訳（メタデータ） (2021-01-14T07:21:13Z)
QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。 YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文参考訳（メタデータ） (2020-11-22T17:33:44Z)
Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文参考訳（メタデータ） (2020-07-29T08:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。