論文の概要: End-to-end Dense Video Captioning as Sequence Generation
- arxiv url: http://arxiv.org/abs/2204.08121v1
- Date: Mon, 18 Apr 2022 01:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 23:46:26.282844
- Title: End-to-end Dense Video Captioning as Sequence Generation
- Title(参考訳): シーケンス生成としてのエンドツーエンドビデオキャプション
- Authors: Wanrong Zhu, Bo Pang, Ashish Thapliyal, William Yang Wang, Radu
Soricut
- Abstract要約: 本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
- 参考スコア(独自算出の注目度): 83.90502354328679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense video captioning aims to identify the events of interest in an input
video, and generate descriptive captions for each event. Previous approaches
usually follow a two-stage generative process, which first proposes a segment
for each event, then renders a caption for each identified segment. Recent
advances in large-scale sequence generation pretraining have seen great success
in unifying task formulation for a great variety of tasks, but so far, more
complex tasks such as dense video captioning are not able to fully utilize this
powerful paradigm. In this work, we show how to model the two subtasks of dense
video captioning jointly as one sequence generation task, and simultaneously
predict the events and the corresponding descriptions. Experiments on YouCook2
and ViTT show encouraging results and indicate the feasibility of training
complex tasks such as end-to-end dense video captioning integrated into
large-scale pre-trained models.
- Abstract(参考訳): デンスビデオキャプションは、入力ビデオにおける興味のあるイベントを特定し、各イベントについて記述的なキャプションを生成することを目的としている。
以前のアプローチは通常、2段階の生成プロセスに従い、まず各イベントのセグメントを提案し、次に識別されたセグメントごとにキャプションを描画する。
近年の大規模シーケンス生成事前学習の進歩は, タスクの統一化に大きな成功を収めているが, これまでは, ビデオキャプションのような複雑なタスクは, この強力なパラダイムを十分に活用することができない。
本研究では,映像キャプションの2つのサブタスクを1つのシーケンス生成タスクとしてモデル化し,イベントと対応する記述を同時に予測する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された,エンドツーエンドの高密度動画キャプションなどの複雑なタスクのトレーニングの実現可能性を示す。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Semantic-Aware Pretraining for Dense Video Captioning [54.61034574151816]
本稿では,高レベルなセマンティック概念の認識を支援する,高密度なビデオキャプションのためのセマンティック・アウェア・プレトレーニング手法を提案する。
最終的なアンサンブルモデルでは,テストセットの10.00 METEORスコアが達成される。
論文 参考訳(メタデータ) (2022-04-13T06:57:23Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。