論文の概要: Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2006.07896v1
- Date: Sun, 14 Jun 2020 13:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:13:08.547070
- Title: Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning
- Title(参考訳): Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning
- Authors: Yuqing Song, Shizhe Chen, Yida Zhao, Qin Jin
- Abstract要約: 本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 63.91369308085091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting meaningful events in an untrimmed video is essential for dense
video captioning. In this work, we propose a novel and simple model for event
sequence generation and explore temporal relationships of the event sequence in
the video. The proposed model omits inefficient two-stage proposal generation
and directly generates event boundaries conditioned on bi-directional temporal
dependency in one pass. Experimental results show that the proposed event
sequence generation model can generate more accurate and diverse events within
a small number of proposals. For the event captioning, we follow our previous
work to employ the intra-event captioning models into our pipeline system. The
overall system achieves state-of-the-art performance on the dense-captioning
events in video task with 9.894 METEOR score on the challenge testing set.
- Abstract(参考訳): 非トリミングビデオで意味のあるイベントを検出することは、密集したビデオキャプションに不可欠である。
本研究では,イベントシーケンス生成のための新規でシンプルなモデルを提案し,ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
実験の結果,提案するイベントシーケンス生成モデルは,より正確かつ多様なイベントを,少数の提案の中で生成できることがわかった。
イベントキャプションについては,パイプラインシステムにイベント内キャプションモデルを採用するために,これまでの作業に従っています。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。
イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文 参考訳(メタデータ) (2024-03-05T01:46:50Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。
型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文 参考訳(メタデータ) (2022-02-15T18:01:39Z) - Dense-Captioning Events in Videos: SYSU Submission to ActivityNet
Challenge 2020 [8.462158729006715]
本報告では,ActivityNet Challenge 2020の高密度ビデオキャプションタスクについて,簡単な説明を行う。
提案手法は,テストセットの9.28 METEORスコアを達成する。
論文 参考訳(メタデータ) (2020-06-21T02:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。