論文の概要: MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
- arxiv url: http://arxiv.org/abs/2406.08407v2
- Date: Thu, 13 Jun 2024 09:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 13:45:10.053810
- Title: MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
- Title(参考訳): MMWorld:ビデオにおける多分野多面世界モデル評価を目指して
- Authors: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang,
- Abstract要約: MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。
MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。
この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
- 参考スコア(独自算出の注目度): 155.52885252910693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models' different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.
- Abstract(参考訳): マルチモーダル言語モデル(MLLM)は、「世界モデル」の出現する能力を示し、複雑な実世界の力学を解釈し推論する。
これらの能力を評価するために、実世界の力学と因果関係の豊かな表現をカプセル化したビデオが理想的なメディアである。
そこで本稿では,マルチディシプリンドなマルチモーダルビデオ理解のための新しいベンチマークであるMMWorldを紹介する。
MMWorldは,(1)包括的理解のためにドメインの専門知識を必要とする様々な分野をカバーする多分野,(2)説明,反現実的思考,将来の予測などを含む多面的推論,という2つの独特な利点で,従来のビデオ理解ベンチマークと差別化を図っている。
MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。
MMWorldは7つの幅広い分野にわたる1,910の動画と69のサブディシプリンは合わせて6,627の質問応答ペアと関連するキャプションで構成されている。
この評価には2つのプロプライエタリなMLLMと10個のオープンソースMLLMが含まれており、MMWorld(例えば、GPT-4Vは52.3\%の精度で最高の性能を発揮し、改善の余地が大きい。
さらなるアブレーション研究は、人間の異なるスキルセットのモデルのような他の興味深い発見を明らかにしている。
MMWorldがビデオにおける世界モデル評価に不可欠なステップになることを願っている。
関連論文リスト
- TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [28.883607056108605]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld [39.50844123904102]
視覚言語モデル(VLM)は、静的な画像の特徴に合わせた大きな言語モデル(LLM)を統合する。
VLMは、具現化された視覚世界において訓練されていないため、その力学と整合することができない。
我々は、平行テキストの世界において優れたLDMエージェントを用いて、視覚の世界に住むVLMエージェントを訓練する。
論文 参考訳(メタデータ) (2023-11-28T11:53:56Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。