論文の概要: Video Event Extraction via Tracking Visual States of Arguments
- arxiv url: http://arxiv.org/abs/2211.01781v1
- Date: Thu, 3 Nov 2022 13:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:15:27.852966
- Title: Video Event Extraction via Tracking Visual States of Arguments
- Title(参考訳): 引数の視覚状態追跡によるビデオイベント抽出
- Authors: Guang Yang, Manling Li, Xudong Lin, Jiajie Zhang, Shih-Fu Chang, Heng
Ji
- Abstract要約: 本稿では,関連するすべての議論の視覚的状態の変化を追跡することによって,ビデオイベントを検出する新しいフレームワークを提案する。
引数の視覚状態の変化を捉えるために、オブジェクト内のピクセルの変化、オブジェクトの変位、複数の引数間の相互作用に分解する。
- 参考スコア(独自算出の注目度): 72.54932474653444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video event extraction aims to detect salient events from a video and
identify the arguments for each event as well as their semantic roles. Existing
methods focus on capturing the overall visual scene of each frame, ignoring
fine-grained argument-level information. Inspired by the definition of events
as changes of states, we propose a novel framework to detect video events by
tracking the changes in the visual states of all involved arguments, which are
expected to provide the most informative evidence for the extraction of video
events. In order to capture the visual state changes of arguments, we decompose
them into changes in pixels within objects, displacements of objects, and
interactions among multiple arguments. We further propose Object State
Embedding, Object Motion-aware Embedding and Argument Interaction Embedding to
encode and track these changes respectively. Experiments on various video event
extraction tasks demonstrate significant improvements compared to
state-of-the-art models. In particular, on verb classification, we achieve
3.49% absolute gains (19.53% relative gains) in F1@5 on Video Situation
Recognition.
- Abstract(参考訳): ビデオイベント抽出は、ビデオから突出したイベントを検出し、各イベントの引数と意味的役割を識別することを目的としている。
既存の手法では、各フレームの全体像を捉え、きめ細かい引数レベルの情報を無視している。
事象を状態の変化として定義することから着想を得て,関連する全ての議論の視覚的状態の変化を追跡することによって,映像イベントを検出する新しい枠組みを提案する。
引数の視覚的な状態変化をキャプチャするために、オブジェクト内のピクセルの変化、オブジェクトの変位、複数の引数間のインタラクションに分解する。
さらに、これらの変更をエンコードして追跡するために、Object State Embedding、Object Motion-Aware Embedding、Argument Interaction Embeddingを提案する。
様々なビデオイベント抽出タスクの実験は、最先端モデルと比較して大幅に改善されている。
特に動詞分類では,ビデオ状況認識においてf1@5の絶対値(19.53%の相対値)が3.49%に達する。
関連論文リスト
- EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type Recognition [54.938128496934695]
本稿では,ビデオクリップから抽出したオブジェクトの振る舞いを理由として,クリップの対応する副詞型を認識するための新しいフレームワークを提案する。
具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案する。
生のビデオクリップから抽出したオブジェクト-振る舞い-ファクトのデータセットを2つリリースする。
論文 参考訳(メタデータ) (2023-07-09T09:04:26Z) - Video Segmentation Learning Using Cascade Residual Convolutional Neural
Network [0.0]
本研究では,残差情報を前景検出学習プロセスに組み込んだ新しい深層学習ビデオセグメンテーション手法を提案する。
Change Detection 2014とPetrobrasのプライベートデータセットであるPetrobrasROUTESで実施された実験は、提案手法の有効性を支持している。
論文 参考訳(メタデータ) (2022-12-20T16:56:54Z) - VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video
Paragraph Captioning [19.73126931526359]
ビデオパラグラフキャプションは、コヒーレントなストーリーテリングにおいて、複数の時間的イベント位置を持つ、トリミングされていないビデオのマルチ文記述を作成することを目的としている。
まず,視覚言語(VL)機能を提案する。提案するVL機能では,このシーンは (i) グローバルな視覚環境, (ii) ローカルな視覚メインエージェント, (iii) 言語シーン要素を含む3つのモードでモデル化される。
次に自動回帰変換器(TinT)を導入し、ビデオ内のイントラコンテンツとイントラコンテンツ間のセマンティックコヒーレンスを同時にキャプチャする。
論文 参考訳(メタデータ) (2022-11-28T07:39:20Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。