Fugu-MT 論文翻訳(概要): MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

論文の概要: MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

arxiv url: http://arxiv.org/abs/2406.08407v2
Date: Thu, 13 Jun 2024 09:37:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 13:45:10.053810
Title: MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
Title（参考訳）: MMWorld:ビデオにおける多分野多面世界モデル評価を目指して
Authors: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang,
Abstract要約: MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
参考スコア（独自算出の注目度）: 155.52885252910693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models' different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.
Abstract（参考訳）: マルチモーダル言語モデル(MLLM)は、「世界モデル」の出現する能力を示し、複雑な実世界の力学を解釈し推論する。これらの能力を評価するために、実世界の力学と因果関係の豊かな表現をカプセル化したビデオが理想的なメディアである。そこで本稿では,マルチディシプリンドなマルチモーダルビデオ理解のための新しいベンチマークであるMMWorldを紹介する。 MMWorldは,(1)包括的理解のためにドメインの専門知識を必要とする様々な分野をカバーする多分野,(2)説明,反現実的思考,将来の予測などを含む多面的推論,という2つの独特な利点で,従来のビデオ理解ベンチマークと差別化を図っている。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 MMWorldは7つの幅広い分野にわたる1,910の動画と69のサブディシプリンは合わせて6,627の質問応答ペアと関連するキャプションで構成されている。この評価には2つのプロプライエタリなMLLMと10個のオープンソースMLLMが含まれており、MMWorld(例えば、GPT-4Vは52.3\%の精度で最高の性能を発揮し、改善の余地が大きい。さらなるアブレーション研究は、人間の異なるスキルセットのモデルのような他の興味深い発見を明らかにしている。 MMWorldがビデオにおける世界モデル評価に不可欠なステップになることを願っている。

関連論文リスト

Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark [35.654523541347174]
MMLAは、ステージ化されたシナリオと実世界のシナリオの両方から引き出された61K以上のマルチモーダル発話で構成されている。我々は、ゼロショット推論、教師付き微調整、命令チューニングの3つの手法を用いて、LLMとMLLMの8つの主流ブランチを評価した。実験の結果、微調整されたモデルでさえ約60%の精度しか達成できず、複雑な人間の言語を理解する上での現在のMLLMの限界が強調されている。
論文参考訳（メタデータ） (2025-04-23T05:25:13Z)
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。 Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark [27.487587901232057]
0.5Bから40Bパラメータの90以上のオープンソースおよびプロプライエタリモデルを評価した。本結果は,これらの講義で提示される認知的課題に対処する上で,現在のモデルが持つ限界を強調するものである。
論文参考訳（メタデータ） (2025-04-20T17:58:46Z)
MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation [52.35744453954844]
本稿では,MLLMの6つのコアオープンエンド能力を評価するベンチマークであるMMRCを紹介する。 MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。そこで我々は,会話から重要な情報を記録し,その応答中にモデルを思い出させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
論文参考訳（メタデータ） (2025-02-17T15:24:49Z)
HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。 HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。 22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文参考訳（メタデータ） (2024-12-23T13:45:56Z)
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [28.883607056108605]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。 TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文参考訳（メタデータ） (2024-10-30T17:50:23Z)
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。 APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文参考訳（メタデータ） (2024-10-15T14:08:53Z)
A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文参考訳（メタデータ） (2024-08-16T09:52:02Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。質問の定式化に不可欠な5つの世界知識を同定する。我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文参考訳（メタデータ） (2024-05-06T08:42:34Z)
Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld [39.50844123904102]
視覚言語モデル(VLM)は、静的な画像の特徴に合わせた大きな言語モデル(LLM)を統合する。 VLMは、具現化された視覚世界において訓練されていないため、その力学と整合することができない。我々は、平行テキストの世界において優れたLDMエージェントを用いて、視覚の世界に住むVLMエージェントを訓練する。
論文参考訳（メタデータ） (2023-11-28T11:53:56Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。