論文の概要: What is More Likely to Happen Next? Video-and-Language Future Event
Prediction
- arxiv url: http://arxiv.org/abs/2010.07999v1
- Date: Thu, 15 Oct 2020 19:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 02:41:46.516528
- Title: What is More Likely to Happen Next? Video-and-Language Future Event
Prediction
- Title(参考訳): 次に起こりそうなものは何か?
ビデオと言語によるイベント予測
- Authors: Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal
- Abstract要約: 対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。
本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。
新しいデータセットであるVideo-and-Language Event Prediction(ビデオ・アンド・ランゲージ・イベント予測)を収集します。
- 参考スコア(独自算出の注目度): 111.93601253692165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a video with aligned dialogue, people can often infer what is more
likely to happen next. Making such predictions requires not only a deep
understanding of the rich dynamics underlying the video and dialogue, but also
a significant amount of commonsense knowledge. In this work, we explore whether
AI models are able to learn to make such multimodal commonsense next-event
predictions. To support research in this direction, we collect a new dataset,
named Video-and-Language Event Prediction (VLEP), with 28,726 future event
prediction examples (along with their rationales) from 10,234 diverse TV Show
and YouTube Lifestyle Vlog video clips. In order to promote the collection of
non-trivial challenging examples, we employ an adversarial
human-and-model-in-the-loop data collection procedure. We also present a strong
baseline incorporating information from video, dialogue, and commonsense
knowledge. Experiments show that each type of information is useful for this
challenging task, and that compared to the high human performance on VLEP, our
model provides a good starting point but leaves large room for future work. Our
dataset and code are available at:
https://github.com/jayleicn/VideoLanguageFuturePred
- Abstract(参考訳): 対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。
このような予測を行うには、ビデオと対話の基礎となるリッチなダイナミクスを深く理解するだけでなく、大量の常識知識が必要である。
本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。
この方向の研究を支援するために,ビデオ・アンド・ランゲージ・イベント予測(vlep)という新しいデータセットを10,234の多様なテレビ番組とyoutubeライフスタイルvlogビデオクリップから28,726の将来のイベント予測例とともに収集した。
非自明な難解な事例の収集を促進するために,我々は,対向的なHuman-and-model-in-the-loopデータ収集手法を採用する。
また,ビデオ,対話,コモンセンス知識からの情報を取り入れた強力なベースラインも提示する。
実験の結果,vlepにおける人間の高いパフォーマンスと比較すると,各情報の種類は優れた出発点となるが,将来的な作業には大きな余地が残されていることがわかった。
私たちのデータセットとコードは、https://github.com/jayleicn/videolanguagefuturepredで利用可能です。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - Human-Object Interaction Prediction in Videos through Gaze Following [9.61701724661823]
我々は、現在のHOIを検出し、将来のHOIをビデオで予測するためのフレームワークを設計する。
我々は、人間がオブジェクトと対話する前にしばしば固定するので、人間の情報を活用することを提案する。
我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットで訓練され、検証されている。
論文 参考訳(メタデータ) (2023-06-06T11:36:14Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。