論文の概要: Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework
- arxiv url: http://arxiv.org/abs/2104.04182v1
- Date: Fri, 9 Apr 2021 04:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:05:27.952876
- Title: Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework
- Title(参考訳): 挑戦的映像理解評価フレームワークとしてのfill-in-the-blank
- Authors: Santiago Castro, Ruoyao Wang, Pingxuan Huang, Ian Stewart, Nan Liu,
Jonathan Stroud, Rada Mihalcea
- Abstract要約: 28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
- 参考スコア(独自算出の注目度): 19.031957183047048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Work to date on language-informed video understanding has primarily addressed
two tasks: (1) video question answering using multiple-choice questions, where
models perform relatively well because they exploit the fact that candidate
answers are readily available; and (2) video captioning, which relies on an
open-ended evaluation framework that is often inaccurate because system answers
may be perceived as incorrect if they differ in form from the ground truth. In
this paper, we propose fill-in-the-blanks as a video understanding evaluation
framework that addresses these previous evaluation drawbacks, and more closely
reflects real-life settings where no multiple choices are given. The task tests
a system understanding of a video by requiring the model to predict a masked
noun phrase in the caption of the video, given the video and the surrounding
text. We introduce a novel dataset consisting of 28,000 videos and
fill-in-the-blank tests. We show that both a multimodal model and a strong
language model have a large gap with human performance, thus suggesting that
the task is more challenging than current video understanding benchmarks.
- Abstract(参考訳): 言語非定型ビデオ理解に関する作業は,(1)多段質問によるビデオ質問応答,(2)候補回答の入手が容易であるという事実を生かして,モデルが比較的良好に機能する,(2)システム応答が根拠真理と異なると誤認識される可能性があるため,不正確であることが多いオープンエンド評価フレームワークに依存するビデオキャプション,の2つの課題を主に扱っている。
本稿では,従来の評価の欠点に対処し,複数の選択肢が与えられていない実生活環境を反映した映像理解評価フレームワークとして,Fil-in-the-Blanksを提案する。
タスクは、ビデオのキャプション内のマスク付き名詞句を予測するために、ビデオとその周辺のテキストをモデルに要求することで、ビデオのシステム理解をテストする。
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が人間のパフォーマンスと大きな差があることを示し、現在のビデオ理解ベンチマークよりもタスクが難しいことを示唆する。
関連論文リスト
- TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。