論文の概要: Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning
- arxiv url: http://arxiv.org/abs/2412.11467v1
- Date: Mon, 16 Dec 2024 05:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:09.759843
- Title: Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning
- Title(参考訳): サイクリックコラーニングにおける高密度ビデオキャプションのための時間的イベントキューの探索
- Authors: Zhuyang Xie, Yan Yang, Yankai Yu, Jie Wang, Yongquan Jiang, Xiao Wu,
- Abstract要約: 本稿では,MCCL(Multi-Concept Cyclic Learning)と呼ばれる高密度ビデオキャプションネットワークを提案する。
我々は各フレームに対して弱い教師付き概念検出を行い、検出された概念埋め込みをビデオ機能に統合してイベントキューを提供する。
キャプションネットワークでは,ジェネレータがセマンティックマッチングを通じてイベントローカライズを誘導する循環的コラーニング戦略を確立する。
- 参考スコア(独自算出の注目度): 8.049305239825735
- License:
- Abstract: Dense video captioning aims to detect and describe all events in untrimmed videos. This paper presents a dense video captioning network called Multi-Concept Cyclic Learning (MCCL), which aims to: (1) detect multiple concepts at the frame level, using these concepts to enhance video features and provide temporal event cues; and (2) design cyclic co-learning between the generator and the localizer within the captioning network to promote semantic perception and event localization. Specifically, we perform weakly supervised concept detection for each frame, and the detected concept embeddings are integrated into the video features to provide event cues. Additionally, video-level concept contrastive learning is introduced to obtain more discriminative concept embeddings. In the captioning network, we establish a cyclic co-learning strategy where the generator guides the localizer for event localization through semantic matching, while the localizer enhances the generator's event semantic perception through location matching, making semantic perception and event localization mutually beneficial. MCCL achieves state-of-the-art performance on the ActivityNet Captions and YouCook2 datasets. Extensive experiments demonstrate its effectiveness and interpretability.
- Abstract(参考訳): デンスビデオキャプションは、トリミングされていないビデオ内のすべてのイベントを検出し、記述することを目的としている。
本稿では,(1)フレームレベルで複数の概念を検知し,映像特徴の強化と時間的イベントキューの提供,(2)キャプションネットワーク内のジェネレータとローカライザ間の循環的協調学習による意味認識とイベントローカライゼーションの促進を目的とした,MCCL(Multi-Concept Cyclic Learning)と呼ばれる高密度ビデオキャプションネットワークを提案する。
具体的には、各フレームに対して弱い教師付き概念検出を行い、検出された概念埋め込みをビデオ機能に統合してイベントキューを提供する。
さらに、より差別的な概念の埋め込みを得るために、ビデオレベルのコントラスト学習が導入される。
キャプションネットワークでは,ジェネレータがセマンティックマッチングを通じてイベントローカライゼーションを誘導する循環的コラーニング戦略を確立し,ローカライザは位置マッチングを通じてジェネレータのイベントセマンティック認識を強化し,セマンティック認識とイベントローカライゼーションを相互に有益にする。
MCCLはActivityNet CaptionsとYouCook2データセットで最先端のパフォーマンスを達成する。
大規模な実験は、その効果と解釈可能性を示している。
関連論文リスト
- CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - Video Imprint [107.1365846180187]
複雑なイベント検索,認識,記録のための統合ビデオ分析フレームワーク(ER3)が提案されている。
提案したビデオインプリント表現は、ビデオフレーム間の画像特徴間の時間的相関を利用する。
ビデオインプリントは、それぞれ、イベント認識/記録およびイベント検索タスクのために、推論ネットワークと特徴集約モジュールに入力される。
論文 参考訳(メタデータ) (2021-06-07T00:32:47Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。