論文の概要: Generating Templated Caption for Video Grounding
- arxiv url: http://arxiv.org/abs/2301.05997v1
- Date: Sun, 15 Jan 2023 02:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 17:47:27.288849
- Title: Generating Templated Caption for Video Grounding
- Title(参考訳): ビデオグラウンド用テンプレートキャプションの生成
- Authors: Hongxiang Li, Meng Cao, Xuxin Cheng, Zhihong Zhu, Yaowei Li, Yuexian
Zou
- Abstract要約: ビデオグラウンディングは、未編集のビデオから与えられたクエリ文にマッチする興味のある瞬間を見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションのEmphsparsityジレンマを無視していた。
本稿では,本論文で定義したテンプレート付きキャプションであるジェネラルアクションを記述できるキャプションの提供により,性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 54.46067948276649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video grounding aims to locate a moment of interest matching the given query
sentence from an untrimmed video. Previous works ignore the \emph{sparsity
dilemma} in video annotations, which fails to provide the context information
between potential events and query sentences in the dataset. In this paper, we
contend that providing easily available captions which describe general actions
\ie, templated captions defined in our paper, will significantly boost the
performance. To this end, we propose a Templated Caption Network (TCNet) for
video grounding. Specifically, we first introduce dense video captioning to
generate dense captions, and then obtain templated captions by Non-Templated
Caption Suppression (NTCS). To utilize templated captions better, we propose
Caption Guided Attention (CGA) project the semantic relations between templated
captions and query sentences into temporal space and fuse them into visual
representations. Considering the gap between templated captions and ground
truth, we propose Asymmetric Dual Matching Supervised Contrastive Learning
(ADMSCL) for constructing more negative pairs to maximize cross-modal mutual
information. Without bells and whistles, extensive experiments on three public
datasets (\ie, ActivityNet Captions, TACoS and ActivityNet-CG) demonstrate that
our method significantly outperforms state-of-the-art methods.
- Abstract(参考訳): ビデオグラウンディングは、未編集のビデオから与えられたクエリ文にマッチする興味のある瞬間を見つけることを目的としている。
以前の作業では、ビデオアノテーションの「emph{sparsity dilemma}」を無視しており、潜在的なイベントとデータセットのクエリ文の間のコンテキスト情報の提供に失敗している。
本稿では,本論文で定義したテンプレート付きキャプションであるジェネラルアクションを記述可能なキャプションの提供により,性能が大幅に向上することを示す。
そこで本稿では,ビデオグラウンドのためのテンプレートキャプションネットワーク(TCNet)を提案する。
具体的には,まず,高密度キャプションを生成するために高密度キャプションを導入し,非テンプレートキャプション抑圧(NTCS)によりテンプレートキャプションを得る。
テンプレート付きキャプションをよりよく活用するために,テンプレート付きキャプションとクエリ文間の意味的関係を時間空間に反映し,それらを視覚表現に融合させるCGA(Caption Guided Attention)プロジェクトを提案する。
テンプレート付き字幕と接地真理のギャップを考慮し、よりネガティブなペアを構築し、相互情報を最大化するための非対称デュアルマッチング監視コントラスト学習(ADMSCL)を提案する。
ベルやホイッスルがなければ,3つの公開データセット(\ie, ActivityNet Captions, TACoS, ActivityNet-CG)の広範な実験により,我々の手法が最先端の手法よりも優れていることが示された。
関連論文リスト
- Video Summarization: Towards Entity-Aware Captions [75.71891605682931]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Tell me what you see: A zero-shot action recognition method based on
natural language descriptions [3.136605193634262]
ビデオから意味情報を抽出するビデオキャプション手法を提案する。
私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。
複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
論文 参考訳(メタデータ) (2021-12-18T17:44:07Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。