論文の概要: Visual Semantic Role Labeling for Video Understanding
- arxiv url: http://arxiv.org/abs/2104.00990v1
- Date: Fri, 2 Apr 2021 11:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 14:05:09.581044
- Title: Visual Semantic Role Labeling for Video Understanding
- Title(参考訳): 映像理解のための視覚意味的役割ラベリング
- Authors: Arka Sadhu, Tanmay Gupta, Mark Yatskar, Ram Nevatia, Aniruddha
Kembhavi
- Abstract要約: 視覚的セマンティック・ロール・ラベリングを用いた映像中の関連イベントの理解と表現のための新しい枠組みを提案する。
ビデオは関連するイベントの集合として表現され、各イベントはそのイベントに関連する様々な役割を果たす動詞と複数のエンティティから構成される。
VidSituベンチマークは、大規模ビデオ理解データソースで、29K$10$-secondの動画クリップに動詞とセマンティックロールが2秒ごとにリッチに注釈付けされている。
- 参考スコア(独自算出の注目度): 46.02181466801726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new framework for understanding and representing related salient
events in a video using visual semantic role labeling. We represent videos as a
set of related events, wherein each event consists of a verb and multiple
entities that fulfill various roles relevant to that event. To study the
challenging task of semantic role labeling in videos or VidSRL, we introduce
the VidSitu benchmark, a large-scale video understanding data source with $29K$
$10$-second movie clips richly annotated with a verb and semantic-roles every
$2$ seconds. Entities are co-referenced across events within a movie clip and
events are connected to each other via event-event relations. Clips in VidSitu
are drawn from a large collection of movies (${\sim}3K$) and have been chosen
to be both complex (${\sim}4.2$ unique verbs within a video) as well as diverse
(${\sim}200$ verbs have more than $100$ annotations each). We provide a
comprehensive analysis of the dataset in comparison to other publicly available
video understanding benchmarks, several illustrative baselines and evaluate a
range of standard video recognition models. Our code and dataset is available
at vidsitu.org.
- Abstract(参考訳): 視覚的セマンティック・ロール・ラベリングを用いた映像中の関連イベントの理解と表現のための新しい枠組みを提案する。
ビデオは関連するイベントの集合として表現され、各イベントはそのイベントに関連する様々な役割を果たす動詞と複数のエンティティから構成される。
ビデオやVidSRLにおけるセマンティックロールラベリングの難易度を検討するために,29Kドル10ドル秒の動画クリップを2秒ごとに動詞とセマンティックロールでリッチに注釈付けした大規模ビデオ理解データソースであるVidSituベンチマークを紹介した。
エンティティは映画クリップ内のイベント間で相互参照され、イベントはイベント-イベント関係を介して相互に接続される。
vidsituのクリップは映画の膨大なコレクション(${\sim}3k$)から引き出され、複雑な(${\sim}4.2$のユニークな動詞)と多様な($sim}200$の動詞はそれぞれ100ドル以上の注釈を持っている)の両方に選択されている。
我々は,他の公開ビデオ理解ベンチマークと比較し,データセットの包括的分析を行い,標準ビデオ認識モデルの評価を行った。
私たちのコードとデータセットはvidsitu.orgで利用可能です。
関連論文リスト
- Learning Video Context as Interleaved Multimodal Sequences [40.15446453928028]
MovieSeqは、ビデオコンテキストを理解するための幅広い課題に対処するために開発されたマルチモーダル言語モデルである。
私たちの中核的な考え方は、動画をインターリーブされたマルチモーダルシーケンスとして表現することであり、外部知識データベースをリンクするか、オフラインモデルを使用するかのどちらかです。
有効性を示すため,MovieSeqの性能を6つのデータセットで検証した。
論文 参考訳(メタデータ) (2024-07-31T17:23:57Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。