Fugu-MT 論文翻訳(概要): Perception Test: A Diagnostic Benchmark for Multimodal Video Models

論文の概要: Perception Test: A Diagnostic Benchmark for Multimodal Video Models

arxiv url: http://arxiv.org/abs/2305.13786v2
Date: Mon, 30 Oct 2023 18:35:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 02:43:26.559089
Title: Perception Test: A Diagnostic Benchmark for Multimodal Video Models
Title（参考訳）: 知覚テスト:マルチモーダルビデオモデルの診断ベンチマーク
Authors: Viorica P\u{a}tr\u{a}ucean, Lucas Smaira, Ankush Gupta, Adri\`a Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, Jo\~ao Carreira
Abstract要約: 本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
参考スコア（独自算出の注目度）: 78.64546291816117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel multimodal video benchmark - the Perception Test - to evaluate the perception and reasoning skills of pre-trained multimodal models (e.g. Flamingo, SeViLA, or GPT-4). Compared to existing benchmarks that focus on computational tasks (e.g. classification, detection or tracking), the Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and types of reasoning (descriptive, explanatory, predictive, counterfactual) across video, audio, and text modalities, to provide a comprehensive and efficient evaluation tool. The benchmark probes pre-trained models for their transfer capabilities, in a zero-shot / few-shot or limited finetuning regime. For these purposes, the Perception Test introduces 11.6k real-world videos, 23s average length, designed to show perceptually interesting situations, filmed by around 100 participants worldwide. The videos are densely annotated with six types of labels (multiple-choice and grounded video question-answers, object and point tracks, temporal action and sound segments), enabling both language and non-language evaluations. The fine-tuning and validation splits of the benchmark are publicly available (CC-BY license), in addition to a challenge server with a held-out test split. Human baseline results compared to state-of-the-art video QA models show a substantial gap in performance (91.4% vs 46.2%), suggesting that there is significant room for improvement in multimodal video understanding. Dataset, baseline code, and challenge server are available at https://github.com/deepmind/perception_test
Abstract（参考訳）: 本研究では,事前学習したマルチモーダルモデル(Flamingo,SeViLA,GPT-4)の知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークである知覚テストを提案する。計算タスク(例えば分類、検出、追跡)に焦点を当てた既存のベンチマークと比較すると、知覚テストは、ビデオ、音声、テキストのモダリティにまたがるスキル(記憶、抽象、物理学、意味論)と推論の種類(記述、説明、予測、反事実)に焦点を当て、包括的で効率的な評価ツールを提供する。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。これらの目的のために、知覚テストでは、世界中の約100人の参加者によって撮影された知覚的に興味深い状況を示すために設計された、平均23秒の11.6kの現実世界ビデオが導入されている。ビデオには6種類のラベル(マルチチョイスと接地ビデオ、オブジェクトとポイントトラック、テンポラルアクションとサウンドセグメント)が密にアノテートされており、言語と非言語の両方の評価を可能にする。ベンチマークの微調整とバリデーションの分割(cc-by license)は、保持テストの分割を備えたチャレンジサーバに加えて、公開されている(cc-by license)。最先端のビデオqaモデルと比較した人間のベースラインの結果は、パフォーマンスの実質的な差(91.4%対46.2%)を示し、マルチモーダルビデオ理解の改善の余地があることを示唆している。 dataset、baseline code、challenge serverはhttps://github.com/deepmind/perception_testで利用可能である。

関連論文リスト

AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models [51.67019924750931]
Video-LevelGaugeは、大規模ビデオ言語モデル(LVLM)における位置バイアスを評価するために設計されたベンチマークである。我々は、標準化されたプローブとカスタマイズされたコンテキスト設定を採用し、コンテキスト長、プローブ位置、コンテキストタイプを柔軟に制御できる。ベンチマークでは、複数のタイプにまたがる438の動画を手動でキュレートし、117の高品質なマルチチョイスの質問と120のオープンエンドの質問を得た。
論文参考訳（メタデータ） (2025-08-27T07:58:16Z)
HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs [19.46311809796145]
本稿では,ビデオ言語モデルの物理的理解を評価するための簡易なショートカット対応ビデオQAベンチマークを提案する。このベンチマークは、55Kの高品質なマルチチョイスビデオQAの例で構成されている。 MVPの人的パフォーマンスは92.9%、最先端の最先端ビデオ言語モデルは40.2%である。
論文参考訳（メタデータ） (2025-06-11T17:57:32Z)
MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs [22.357762402346403]
CG-AV-Countingは、手動で注釈付き手掛かり付き数え上げベンチマークで、1,027のマルチモーダル質問と5,845の注釈付き手掛かりを497本の長ビデオで紹介する。ブラックボックスとホワイトボックスの評価の両方をサポートし、エンドツーエンドと推論ベースのカウントのための包括的なテストベッドとして機能する。 AV-Reasonerは、GRPOとカリキュラム学習で訓練されたモデルであり、関連するタスクからカウント能力を一般化する。
論文参考訳（メタデータ） (2025-06-05T17:58:33Z)
SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文参考訳（メタデータ） (2025-04-08T06:00:28Z)
V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction [17.038321383586037]
LVLM(Large Vision-Language Models)は近年,映像理解の分野で大きな進歩を遂げている。現在のベンチマークはテキストに一様に依存しており、複雑な参照言語を必要とすることが多い。マルチモーダルなヒューマンモデルインタラクションシナリオにおけるLVLMの映像理解能力を評価するためのベンチマークであるVideo Visual Prompt Benchmark(V2P-Bench)を提案する。
論文参考訳（メタデータ） (2025-03-22T11:30:46Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文参考訳（メタデータ） (2024-10-10T09:28:36Z)
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文参考訳（メタデータ） (2024-09-26T17:53:04Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。大規模なVidL事前学習による各種ベースライン法の評価を行った。我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文参考訳（メタデータ） (2021-06-08T18:34:21Z)
Fill-in-the-blank as a Challenging Video Understanding Evaluation Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文参考訳（メタデータ） (2021-04-09T04:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。