論文の概要: MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2506.05523v1
- Date: Thu, 05 Jun 2025 19:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.203782
- Title: MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning
- Title(参考訳): MORSE-500: マルチモーダル推論のためのプログラム制御可能なビデオベンチマーク
- Authors: Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang,
- Abstract要約: MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
- 参考スコア(独自算出の注目度): 54.47710436807661
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite rapid advances in vision-language models (VLMs), current benchmarks for multimodal reasoning fall short in three key dimensions. First, they overwhelmingly rely on static images, failing to capture the temporal complexity of real-world environments. Second, they narrowly focus on mathematical problem-solving, neglecting the broader spectrum of reasoning skills -- including abstract, physical, planning, spatial, and temporal capabilities -- required for robust multimodal intelligence. Third, many benchmarks quickly saturate, offering limited headroom for diagnosing failure modes or measuring continued progress. We introduce MORSE-500 (Multimodal Reasoning Stress-test Environment), a video benchmark composed of 500 fully scripted clips with embedded questions spanning six complementary reasoning categories. Each instance is programmatically generated using deterministic Python scripts (via Manim, Matplotlib, MoviePy), generative video models, and curated real footage. This script-driven design allows fine-grained control over visual complexity, distractor density, and temporal dynamics -- enabling difficulty to be scaled systematically as models improve. Unlike static benchmarks that become obsolete once saturated, MORSE-500 is built to evolve: its controllable generation pipeline supports the creation of arbitrarily challenging new instances, making it ideally suited for stress-testing next-generation models. Initial experiments with state-of-the-art systems -- including various Gemini 2.5 Pro and OpenAI o3 which represent the strongest available at the time, alongside strong open-source models -- reveal substantial performance gaps across all categories, with particularly large deficits in abstract and planning tasks. We release the full dataset, generation scripts, and evaluation harness to support transparent, reproducible, and forward-looking multimodal reasoning research.
- Abstract(参考訳): 視覚言語モデル(VLM)の急速な進歩にもかかわらず、現在のマルチモーダル推論のベンチマークは3つの重要な次元で不足している。
まず、静的なイメージを圧倒的に頼りにしており、現実世界の環境の時間的複雑さを捉えていない。
第二に、より広範な推論スキル(抽象的、物理的、計画的、空間的、時間的能力など)を無視して、数学的な問題解決に注力している。
第三に、多くのベンチマークが急速に飽和し、障害モードの診断や継続的な進捗測定のための限られたヘッドルームを提供する。
MORSE-500(Multimodal Reasoning Stress-test Environment, MORSE-500)は,6つの相補的推論カテゴリにまたがる,500の完全スクリプト付きクリップからなるビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy経由)、生成ビデオモデル、キュレートされた実映像を使用して、プログラムで生成される。
このスクリプト駆動設計は、視覚的複雑さ、イントラクタ密度、時間的ダイナミクスをきめ細かいコントロールを可能にします。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
さまざまなGemini 2.5 ProやOpenAI o3など、最先端のシステムによる初期の実験は、強力なオープンソースモデルとともに、当時最強の成果を上げている。
完全なデータセット、生成スクリプト、評価ハーネスを公開し、透過的で再現性があり、前方に見えるマルチモーダル推論研究をサポートする。
関連論文リスト
- Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation [22.27973335431714]
MLLM(Multimodal Large Language Models)の軽量拡張であるv1を提案する。
v1は単純なポイントアンドコピー機構を導入し、推論プロセスを通してモデルが関連する画像領域を動的に検索できるようにする。
この結果から,動的視覚アクセスはマルチモーダル推論の高速化に有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2025-05-24T19:30:47Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [28.883607056108605]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。