論文の概要: Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training
- arxiv url: http://arxiv.org/abs/2207.08625v1
- Date: Mon, 18 Jul 2022 14:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:11:03.422325
- Title: Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training
- Title(参考訳): 事前学習によるシーケンス生成としてのイベント検出とキャプションの統一
- Authors: Qi Zhang and Yuqing Song and Qin Jin
- Abstract要約: 本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
- 参考スコア(独自算出の注目度): 53.613265415703815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense video captioning aims to generate corresponding text descriptions for a
series of events in the untrimmed video, which can be divided into two
sub-tasks, event detection and event captioning. Unlike previous works that
tackle the two sub-tasks separately, recent works have focused on enhancing the
inter-task association between the two sub-tasks. However, designing inter-task
interactions for event detection and captioning is not trivial due to the large
differences in their task specific solutions. Besides, previous event detection
methods normally ignore temporal dependencies between events, leading to event
redundancy or inconsistency problems. To tackle above the two defects, in this
paper, we define event detection as a sequence generation task and propose a
unified pre-training and fine-tuning framework to naturally enhance the
inter-task association between event detection and captioning. Since the model
predicts each event with previous events as context, the inter-dependency
between events is fully exploited and thus our model can detect more diverse
and consistent events in the video. Experiments on the ActivityNet dataset show
that our model outperforms the state-of-the-art methods, and can be further
boosted when pre-trained on extra large-scale video-text data. Code is
available at \url{https://github.com/QiQAng/UEDVC}.
- Abstract(参考訳): 密集したビデオキャプションは、一連のイベントに対して対応するテキスト記述を生成することを目的としており、イベント検出とイベントキャプションという2つのサブタスクに分類することができる。
2つのサブタスクを別々に扱う以前の作業とは異なり、最近の作業は2つのサブタスク間のタスク間の関連付けを強化することに重点を置いている。
しかし,タスク固有のソリューションに大きな違いがあるため,イベント検出とキャプションのためのタスク間インタラクションの設計は容易ではない。
さらに、従来のイベント検出方法は、通常、イベント間の時間的依存関係を無視し、イベントの冗長性や一貫性の問題を引き起こす。
本稿では,この2つの欠陥に対処するため,イベント検出をシーケンス生成タスクとして定義し,イベント検出とキャプションのタスク間関係を自然に強化する統合事前学習および微調整フレームワークを提案する。
このモデルでは,過去のイベントをコンテキストとして予測するため,イベント間の相互依存性を完全に活用し,より多様で一貫したイベントを検出することができる。
ActivityNetデータセットの実験では、我々のモデルは最先端の手法よりも優れており、大規模なビデオテキストデータで事前トレーニングされた場合、さらなる向上が期待できる。
コードは \url{https://github.com/QiQAng/UEDVC} で入手できる。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。
イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文 参考訳(メタデータ) (2024-03-05T01:46:50Z) - Pretext Training Algorithms for Event Sequence Data [29.70078362944441]
本稿では,イベントシーケンスデータに適した自己教師付き事前テキスト学習フレームワークを提案する。
私たちのプレテキストタスクは、さまざまなダウンストリームタスクで一般化可能な基礎表現をアンロックします。
論文 参考訳(メタデータ) (2024-02-16T01:25:21Z) - Semantic Pivoting Model for Effective Event Detection [19.205550116466604]
Event Detectionは、構造化されていない記事からイベントインスタンスの参照を識別し、分類することを目的としている。
イベント検出の既存のテクニックは、イベントタイプクラスを表現するために、均質な1ホットベクトルのみを使用しており、型の意味がタスクにとって重要であるという事実を無視している。
本稿では,学習中の事前情報を明示的に組み込んで,入力とイベント間の意味的に意味のある相関関係を捉えるセマンティック・ピロリング・モデル(SPEED)を提案する。
論文 参考訳(メタデータ) (2022-11-01T19:20:34Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。