論文の概要: VIOLIN: A Large-Scale Dataset for Video-and-Language Inference
- arxiv url: http://arxiv.org/abs/2003.11618v1
- Date: Wed, 25 Mar 2020 20:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 02:31:37.988888
- Title: VIOLIN: A Large-Scale Dataset for Video-and-Language Inference
- Title(参考訳): VIOLIN:ビデオとランゲージ推論のための大規模データセット
- Authors: Jingzhou Liu, Wenhu Chen, Yu Cheng, Zhe Gan, Licheng Yu, Yiming Yang,
Jingjing Liu
- Abstract要約: ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
- 参考スコア(独自算出の注目度): 103.7457132841367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new task, Video-and-Language Inference, for joint multimodal
understanding of video and text. Given a video clip with aligned subtitles as
premise, paired with a natural language hypothesis based on the video content,
a model needs to infer whether the hypothesis is entailed or contradicted by
the given video clip. A new large-scale dataset, named Violin
(VIdeO-and-Language INference), is introduced for this task, which consists of
95,322 video-hypothesis pairs from 15,887 video clips, spanning over 582 hours
of video. These video clips contain rich content with diverse temporal
dynamics, event shifts, and people interactions, collected from two sources:
(i) popular TV shows, and (ii) movie clips from YouTube channels. In order to
address our new multimodal inference task, a model is required to possess
sophisticated reasoning skills, from surface-level grounding (e.g., identifying
objects and characters in the video) to in-depth commonsense reasoning (e.g.,
inferring causal relations of events in the video). We present a detailed
analysis of the dataset and an extensive evaluation over many strong baselines,
providing valuable insights on the challenges of this new task.
- Abstract(参考訳): ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
字幕を前提として並べたビデオクリップと、ビデオコンテンツに基づく自然言語仮説を組み合わせると、モデルは、その仮説が与えられたビデオクリップに含まれているかどうかを推測する必要がある。
15887本のビデオクリップから95,322本のビデオハイポテーゼペアで構成され、582時間に及ぶビデオにまたがる。
これらのビデオクリップには、多様な時間的ダイナミクス、イベントシフト、および2つのソースから収集された人々のインタラクションを含むリッチコンテンツが含まれている。
(i)人気テレビ番組、
(ii)youtubeチャンネルの動画クリップ。
新たなマルチモーダル推論タスクに対処するためには,表面レベルのグラウンド(ビデオ内のオブジェクトや文字の識別など)から,詳細なコモンセンス推論(ビデオ内のイベントの因果関係を推論するなど)に至るまで,高度な推論スキルを持つ必要がある。
本研究は,データセットの詳細な分析と,多くの強力なベースラインに対する広範な評価を行い,この新たなタスクの課題に関する貴重な洞察を提供する。
関連論文リスト
- SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。