論文の概要: WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation
- arxiv url: http://arxiv.org/abs/2605.25874v1
- Date: Mon, 25 May 2026 14:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.244787
- Title: WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation
- Title(参考訳): WBench: インタラクティブなビデオワールドモデル評価のための総合的マルチターンベンチマーク
- Authors: Kaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen, Ziwen Wang, Xuezhi Cao, Xunliang Cai, Henghui Ding,
- Abstract要約: WBenchはインタラクティブな世界モデルを評価するための総合的なベンチマークである。
ビデオの品質、セッティングアテンジェンス、インタラクションアテンデンス、一貫性、物理コンプライアンスをカバーしている。
289件のテストケースと1,058件のインタラクション・ターンが含まれており、多様なシーン、スタイル、主題、一対三の視点をカバーしている。
- 参考スコア(独自算出の注目度): 56.5415838759151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive world models are advancing rapidly, yet existing benchmarks cover only part of the required competencies, leaving no unified standard for systematic evaluation. To fill this gap, we introduce WBench, a comprehensive multi-turn benchmark for interactive world model evaluation along five dimensions, namely video quality, setting adherence, interaction adherence, consistency, and physics compliance. WBench contains 289 test cases and 1,058 interaction turns, where each case specifies a world setting and a multi-turn interaction sequence, covering diverse scenes, styles, subjects, and both first- and third-person perspectives, together with four interaction types, including navigation, subject action, event editing, and perspective switching. For navigation, WBench unifies text, 6-DoF pose, and discrete-action control, enabling evaluation of models with different native input interfaces. Evaluation uses 22 automatic sub-metrics that combine specialist vision models with large multimodal models, and all metrics are validated against human judgments. Across 20 state-of-the-art models, we find that no single model performs strongly across all dimensions. We provide detailed diagnostic insights into the characteristic strengths, weaknesses, and open challenges of each model. Code and data are available at https://github.com/meituan-longcat/WBench.
- Abstract(参考訳): インタラクティブな世界モデルは急速に進歩しているが、既存のベンチマークは必要な能力の一部しかカバーしておらず、体系的な評価のための統一された標準は残っていない。
このギャップを埋めるために、WBenchはインタラクティブな世界モデル評価のための総合的なマルチターンベンチマークであり、ビデオ品質、セッティングアテンデンス、インタラクションアテンデンス、一貫性、物理コンプライアンスの5つの側面に沿っている。
WBenchには289のテストケースと1,058のインタラクションターンが含まれており、各ケースはワールドセッティングとマルチターンインタラクションシーケンスを指定し、多様なシーン、スタイル、主題、およびファーストパーソンとサードパーソンの両方の視点をカバーし、ナビゲーション、主題アクション、イベント編集、パースペクティブスイッチングを含む4つのインタラクションタイプがある。
ナビゲーションのために、WBenchはテキスト、6-DoFのポーズ、離散アクション制御を統一し、異なるネイティブ入力インタフェースを持つモデルの評価を可能にする。
評価には22のサブメトリックを使用し、専門的な視覚モデルと大規模なマルチモーダルモデルを組み合わせて、すべてのメトリクスを人間の判断に対して検証する。
20以上の最先端モデルにおいて、すべての次元にわたって強い性能を発揮するモデルは存在しないことが判明した。
各モデルの長所、短所、オープンな課題について、詳細な診断結果を提供する。
コードとデータはhttps://github.com/meituan-longcat/WBench.comで公開されている。
関連論文リスト
- iWorld-Bench: A Benchmark for Interactive World Models with a Unified Action Generation Framework [27.208236690012914]
iWorld-Benchは、インタラクション関連の能力に関するワールドモデルのトレーニングとテストのためのベンチマークである。
330kのビデオクリップによる多様なデータセットを構築し、さまざまな視点、天気、シーンをカバーする2.1kの高品質なサンプルを選択した。
論文 参考訳(メタデータ) (2026-05-05T16:30:03Z) - WorldMark: A Unified Benchmark Suite for Interactive Video World Models [29.83820642224732]
We introduced WorldMark, the first benchmark that provide a common play field for interactive Image-to-Video world models。
ワールドマークは、(1)共通のWASDスタイルのアクション語彙を各モデルのネイティブコントロール形式に変換し、同一のシーンと軌跡の6つの主要モデル間でリンゴとアプリの比較を可能にする統一アクションマッピング層、(2)1人目と3人目、フォトリアリスティックでスタイリングされたシーン、そして容易からハードまでの3つの難易度を含む500の評価ケースの階層的なテストスイート、(3)視覚品質、制御アライメント、世界一貫性のためのモジュラー評価ツールキット
論文 参考訳(メタデータ) (2026-04-23T13:50:47Z) - Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models [39.648000265543445]
ビデオベースの世界モデルは、ビデオ生成と3D再構成という2つの支配的なパラダイムに沿って登場した。
世界モデリングの未来は、空間構造と時間的進化を共同でモデル化する4D世代にあると我々は主張する。
Omni-WorldBenchは,世界モデルの対話的応答能力を4次元設定で評価するためのベンチマークである。
論文 参考訳(メタデータ) (2026-03-23T17:10:29Z) - The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality [70.45240108873001]
FACTS Leaderboardは、実際に正確なテキストを生成する言語モデルの能力を総合的に評価するオンラインのリーダーボードスイートである。
このスイートは、4つの異なるサブリーダーボード上でのモデルのパフォーマンスを集約することで、事実性の総合的な尺度を提供する。
論文 参考訳(メタデータ) (2025-12-11T16:35:14Z) - PointArena: Probing Multimodal Grounding Through Language-Guided Pointing [79.80132157576978]
ポインティングは、視覚的コンテキスト内で言語を接地するための基本的で直感的なメカニズムとして機能する。
多様な推論シナリオを対象とするマルチモーダル評価のための総合的なプラットフォームであるPointArenaを紹介した。
論文 参考訳(メタデータ) (2025-05-15T06:04:42Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。