論文の概要: Perception Test: A Diagnostic Benchmark for Multimodal Video Models
- arxiv url: http://arxiv.org/abs/2305.13786v2
- Date: Mon, 30 Oct 2023 18:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:43:26.559089
- Title: Perception Test: A Diagnostic Benchmark for Multimodal Video Models
- Title(参考訳): 知覚テスト:マルチモーダルビデオモデルの診断ベンチマーク
- Authors: Viorica P\u{a}tr\u{a}ucean, Lucas Smaira, Ankush Gupta, Adri\`a
Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph
Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova,
Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster,
Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen,
Andrew Zisserman, Jo\~ao Carreira
- Abstract要約: 本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
- 参考スコア(独自算出の注目度): 78.64546291816117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel multimodal video benchmark - the Perception Test - to
evaluate the perception and reasoning skills of pre-trained multimodal models
(e.g. Flamingo, SeViLA, or GPT-4). Compared to existing benchmarks that focus
on computational tasks (e.g. classification, detection or tracking), the
Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and
types of reasoning (descriptive, explanatory, predictive, counterfactual)
across video, audio, and text modalities, to provide a comprehensive and
efficient evaluation tool. The benchmark probes pre-trained models for their
transfer capabilities, in a zero-shot / few-shot or limited finetuning regime.
For these purposes, the Perception Test introduces 11.6k real-world videos, 23s
average length, designed to show perceptually interesting situations, filmed by
around 100 participants worldwide. The videos are densely annotated with six
types of labels (multiple-choice and grounded video question-answers, object
and point tracks, temporal action and sound segments), enabling both language
and non-language evaluations. The fine-tuning and validation splits of the
benchmark are publicly available (CC-BY license), in addition to a challenge
server with a held-out test split. Human baseline results compared to
state-of-the-art video QA models show a substantial gap in performance (91.4%
vs 46.2%), suggesting that there is significant room for improvement in
multimodal video understanding.
Dataset, baseline code, and challenge server are available at
https://github.com/deepmind/perception_test
- Abstract(参考訳): 本研究では,事前学習したマルチモーダルモデル(Flamingo,SeViLA,GPT-4)の知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークである知覚テストを提案する。
計算タスク(例えば分類、検出、追跡)に焦点を当てた既存のベンチマークと比較すると、知覚テストは、ビデオ、音声、テキストのモダリティにまたがるスキル(記憶、抽象、物理学、意味論)と推論の種類(記述、説明、予測、反事実)に焦点を当て、包括的で効率的な評価ツールを提供する。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
これらの目的のために、知覚テストでは、世界中の約100人の参加者によって撮影された知覚的に興味深い状況を示すために設計された、平均23秒の11.6kの現実世界ビデオが導入されている。
ビデオには6種類のラベル(マルチチョイスと接地ビデオ、オブジェクトとポイントトラック、テンポラルアクションとサウンドセグメント)が密にアノテートされており、言語と非言語の両方の評価を可能にする。
ベンチマークの微調整とバリデーションの分割(cc-by license)は、保持テストの分割を備えたチャレンジサーバに加えて、公開されている(cc-by license)。
最先端のビデオqaモデルと比較した人間のベースラインの結果は、パフォーマンスの実質的な差(91.4%対46.2%)を示し、マルチモーダルビデオ理解の改善の余地があることを示唆している。
dataset、baseline code、challenge serverはhttps://github.com/deepmind/perception_testで利用可能である。
関連論文リスト
- AIR-Bench: Benchmarking Large Audio-Language Models via Generative
Comprehension [98.69691822391069]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame
Interpolation [11.198172694893927]
SportsSloMoは、130万本以上のビデオクリップと100万フレームの高解像度(720p)のスローモーションスポーツビデオがYouTubeからクロールされたベンチマークである。
ベンチマークでいくつかの最先端手法を再学習し、その結果、他のデータセットと比較して精度が低下していることを示す。
我々は,人間の認識する先行性を考慮した2つの損失項を導入し,汎視的セグメンテーションと人間のキーポイント検出に補助的監督を加える。
論文 参考訳(メタデータ) (2023-08-31T17:23:50Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z) - STAViS: Spatio-Temporal AudioVisual Saliency Network [45.04894808904767]
STAViSは視覚的サリエンシと聴覚機能を組み合わせたネットワークである。
音源を適切に局所化し、2つの塩分を融合させて最終的な塩分マップを得る。
提案手法を8種類の最先端ビジュアル・サリエンシ・モデルと比較した。
論文 参考訳(メタデータ) (2020-01-09T15:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。