論文の概要: End-to-End Dense Video Captioning with Parallel Decoding
- arxiv url: http://arxiv.org/abs/2108.07781v1
- Date: Tue, 17 Aug 2021 17:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:14:43.871858
- Title: End-to-End Dense Video Captioning with Parallel Decoding
- Title(参考訳): 並列デコーディングによるエンド・ツー・エンドディエンスビデオキャプション
- Authors: Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng, Ran Cheng, Ping Luo
- Abstract要約: パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
- 参考スコア(独自算出の注目度): 53.34238344647624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense video captioning aims to generate multiple associated captions with
their temporal locations from the video. Previous methods follow a
sophisticated "localize-then-describe" scheme, which heavily relies on numerous
hand-crafted components. In this paper, we proposed a simple yet effective
framework for end-to-end dense video captioning with parallel decoding (PDVC),
by formulating the dense caption generation as a set prediction task. In
practice, through stacking a newly proposed event counter on the top of a
transformer decoder, the PDVC precisely segments the video into a number of
event pieces under the holistic understanding of the video content, which
effectively increases the coherence and readability of predicted captions.
Compared with prior arts, the PDVC has several appealing advantages: (1)
Without relying on heuristic non-maximum suppression or a recurrent event
sequence selection network to remove redundancy, PDVC directly produces an
event set with an appropriate size; (2) In contrast to adopting the two-stage
scheme, we feed the enhanced representations of event queries into the
localization head and caption head in parallel, making these two sub-tasks
deeply interrelated and mutually promoted through the optimization; (3) Without
bells and whistles, extensive experiments on ActivityNet Captions and YouCook2
show that PDVC is capable of producing high-quality captioning results,
surpassing the state-of-the-art two-stage methods when its localization
accuracy is on par with them. Code is available at
https://github.com/ttengwang/PDVC.
- Abstract(参考訳): 濃密なビデオキャプションは、ビデオから複数の関連キャプションと時間的位置を生成することを目的としている。
従来の手法は、多くの手作り部品に大きく依存する洗練された「ローカライズ・then-describe」スキームに従っていた。
本稿では,高密度キャプション生成をセット予測タスクとして定式化することにより,並列デコーディング(PDVC)によるエンドツーエンドの高密度キャプションの簡易かつ効果的なフレームワークを提案する。
実際には、トランスデコーダの上部に新たに提案されたイベントカウンタを積み重ねることで、PDVCは、映像コンテンツを包括的に理解した複数のイベントピースに正確に分割し、予測されたキャプションの一貫性と可読性を効果的に向上させる。
Compared with prior arts, the PDVC has several appealing advantages: (1) Without relying on heuristic non-maximum suppression or a recurrent event sequence selection network to remove redundancy, PDVC directly produces an event set with an appropriate size; (2) In contrast to adopting the two-stage scheme, we feed the enhanced representations of event queries into the localization head and caption head in parallel, making these two sub-tasks deeply interrelated and mutually promoted through the optimization; (3) Without bells and whistles, extensive experiments on ActivityNet Captions and YouCook2 show that PDVC is capable of producing high-quality captioning results, surpassing the state-of-the-art two-stage methods when its localization accuracy is on par with them.
コードはhttps://github.com/ttengwang/PDVC.comで入手できる。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis [5.4598424549754965]
本稿では,AIシティチャレンジ2024におけるトラック2の解決策を紹介する。
このタスクは、Woven Traffic Safetyのデータセットを用いて、交通安全の説明と分析を解決することを目的としている。
私たちのソリューションはテストセットで得られ、競争で6位を獲得しました。
論文 参考訳(メタデータ) (2024-04-12T04:08:21Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and
Multi-Head Decoding for Dense Video Captioning [46.69503728433432]
本稿では,符号化・復号化フレームワークに基づく意味支援型高密度ビデオキャプションモデルを提案する。
本手法は,評価中のYouMakeupデータセットの大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-06T10:56:53Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - Dense Video Captioning Using Unsupervised Semantic Information [2.022555840231001]
本稿では,複雑な事象をより単純な事象に分解できるという前提に基づいて,教師なしの視覚情報を学習する手法を提案する。
長いビデオを短いフレームシーケンスに分割し、3次元畳み込みニューラルネットワークで潜在表現を抽出した。
この表現は,視覚的特徴しか持たないシナリオにおいて,高密度映像キャプションタスクの性能をいかに活用できるかを実証する。
論文 参考訳(メタデータ) (2021-12-15T20:03:42Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。