WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation
Abstractの概要
WBenchは、単発の動画品質だけでなく、マルチターン設定におけるインタラクティブ動画ワールドモデルを評価するためのベンチマークである。本ベンチマークは、動画品質、設定遵守、インタラクション遵守、一貫性、物理法則への準拠という5つの次元に沿って評価を構成している。多様なシーン、スタイル、被写体、一人称および三人称視点にわたり、ナビゲーション、被写体の動作、イベント編集、視点切り替えという4つのインタラクションタイプを含む289のテストケースと1,058のインタラクションターンを含んでいる。評価スイートは22の自動サブ指標を使用しており、論文では統一されたプロトコルの下で20の最先端モデルの実験結果を報告している。
新規性
本論文の主な新規性は、一人称視点と三人称視点の両方、4つのインタラクションタイプ、およびインタラクティブワールドモデルの5つの評価次元を包括的に網羅した、統一されたオープンドメインベンチマークである。また、テキスト、6自由度カメラポーズ、離散アクション制御にわたる統一されたナビゲーションインターフェースに加え、人間の評価によって検証された自動22指標評価パイプラインを導入している。
成果
20のモデルを評価した結果、すべての5つの次元で高い性能を発揮する単一のモデルは存在しないことが判明した。ネイティブのカメラやアクション制御を持つモデルはナビゲーション性能に優れる一方、テキスト駆動のモデルは一般的に設定遵守や物理法則関連のスコアでリードしている。また、分析により、ナビゲーションは他の機能から比較的独立していること、視点切り替えが特に困難であること、自動指標のランキングが人間の好みに密接に一致していることも示されている。
論文の注目点
- WBenchは、ナビゲーション、被写体の動作、イベント編集、視点切り替えにわたるマルチターンのインタラクションを伴う289のケースと1,058のターンをカバーしている。
- このベンチマークは、動画品質、設定遵守、インタラクション遵守、一貫性、物理法則への準拠にわたる22の自動サブ指標を用いてモデルを評価する。
- 20のモデルでの実験により、すべての面で優れるモデルは存在しないことが示され、制御性、一貫性、シーン遵守、物理的妥当性の間に明確なトレードオフがあることが明らかになった。
参考リンク
- arXiv: https://arxiv.org/abs/2605.25874v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.25874v1
- Hugging Face Papers: https://huggingface.co/papers/2605.25874