論文の概要: Dense-Captioning Events in Videos: SYSU Submission to ActivityNet
Challenge 2020
- arxiv url: http://arxiv.org/abs/2006.11693v2
- Date: Wed, 12 Aug 2020 03:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:15:06.780462
- Title: Dense-Captioning Events in Videos: SYSU Submission to ActivityNet
Challenge 2020
- Title(参考訳): ビデオの高密度キャプチャーイベント:activitynet challenge 2020へのsysuの提出
- Authors: Teng Wang, Huicheng Zheng, Mingjing Yu
- Abstract要約: 本報告では,ActivityNet Challenge 2020の高密度ビデオキャプションタスクについて,簡単な説明を行う。
提案手法は,テストセットの9.28 METEORスコアを達成する。
- 参考スコア(独自算出の注目度): 8.462158729006715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents a brief description of our submission to the
dense video captioning task of ActivityNet Challenge 2020. Our approach follows
a two-stage pipeline: first, we extract a set of temporal event proposals; then
we propose a multi-event captioning model to capture the event-level temporal
relationships and effectively fuse the multi-modal information. Our approach
achieves a 9.28 METEOR score on the test set.
- Abstract(参考訳): この技術報告は、ActivityNet Challenge 2020の高密度ビデオキャプションタスクへの私たちの提出の簡単な説明である。
まず、時間的イベント提案のセットを抽出する。次に、イベントレベルの時間的関係をキャプチャし、マルチモーダル情報を効果的に融合するマルチイベントキャプションモデルを提案する。
提案手法は,テストセットの9.28 METEORスコアを達成する。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - Semantic-Aware Pretraining for Dense Video Captioning [54.61034574151816]
本稿では,高レベルなセマンティック概念の認識を支援する,高密度なビデオキャプションのためのセマンティック・アウェア・プレトレーニング手法を提案する。
最終的なアンサンブルモデルでは,テストセットの10.00 METEORスコアが達成される。
論文 参考訳(メタデータ) (2022-04-13T06:57:23Z) - Joint Multimedia Event Extraction from Video and Article [51.159034070824056]
本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。
まず,自己教師型マルチモーダルイベントコアモデルを提案する。
第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
論文 参考訳(メタデータ) (2021-09-27T03:22:12Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z) - Temporal Fusion Network for Temporal Action Localization:Submission to
ActivityNet Challenge 2020 (Task E) [45.3218136336925]
本稿では,Activitynet Challenge 2020で開催されているHACSコンペティションで使用した時間的行動ローカライズ手法について分析する。
課題は、未トリミングビデオ中のアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
提案手法は,複数のモデルの結果を融合することにより,検証セットで40.55%,mAPで40.53%を獲得し,この課題においてランク1を達成する。
論文 参考訳(メタデータ) (2020-06-13T00:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。