論文の概要: RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
- arxiv url: http://arxiv.org/abs/2512.02622v1
- Date: Tue, 02 Dec 2025 10:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.826966
- Title: RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
- Title(参考訳): RULER-Bench:ビジョンファウンデーションインテリジェンスのための次世代ビデオ生成モデルのルールベース推論能力の提案
- Authors: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu,
- Abstract要約: RULER-Benchは、認知ルールの観点から、映像生成モデルの推論能力を評価するために設計されたベンチマークである。
生成された各ビデオの評価のために、4つのメトリクスをカバーするチェックリストを構築し、GPT-o3を利用して各質問にスコアを割り当てる。
実験により、最先端のモデルはルールコヒーレンスメートル法で48.87%しか達成していないことが示されている。
- 参考スコア(独自算出の注目度): 24.51106324851909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.
- Abstract(参考訳): 近年のビデオ生成の進歩により、強い時間的一貫性と印象的な視覚的品質を持つビデオの合成が可能となり、視覚基盤モデルへの重要な一歩となった。
これらのビデオ生成モデルを評価するために、既存のベンチマークは主に視覚的美学、命令順守、時間的コヒーレンスといった視覚的知覚と理解に関連する要素に焦点を当てている。
しかし、ビデオ生成モデルのルールに基づく推論能力はほとんど探索されていない。
近年の研究では、ビデオモデルがゼロショット学習者として機能するかどうかを予備検討しているが、推論能力の微妙な分解や包括的な評価プロトコルはいまだに欠如している。
このギャップに対処するために,認知ルールの観点から映像生成モデルの推論能力を評価するためのベンチマークRULER-Benchを紹介する。
テキスト・トゥ・ビデオと画像・トゥ・ビデオという2つの基本パラダイムに基づいて構築されたRULER-Benchは、6つのルールカテゴリにまたがる40の代表的なタスクを622の高品質なアノテーション付きインスタンスでカバーしている。
生成されたビデオの評価には、4つの指標をカバーするチェックリストを構築し、GPT-o3を利用して各質問にスコアを割り当て、人間の判断と85%のアライメントを達成する。
大規模な実験により、最先端のモデルはルールコヒーレンス基準で48.87%しか達成できず、次のレベルのビデオモデルの推論能力を改善するための重要な余地が浮かび上がっている。
我々は、RULER-Benchから得られた知見が、推論対応のビデオ生成のさらなる発展を促進し、視覚基盤インテリジェンスに向けた映像生成モデルを前進させることを期待する。
関連論文リスト
- V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models [52.97290143922252]
V-ReasonBenchは、4つの主要な次元にわたるビデオ推論を評価するために設計されたベンチマークである。
6つの最先端ビデオモデルの評価は、明らかに次元的な違いを示している。
全体として、V-ReasonBenchは、ビデオ推論を測定する統一的で再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-20T18:59:42Z) - Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks [42.11140720884257]
ビデオモデルは、コヒーレントモーションダイナミクスを用いた高忠実度ビデオ生成において顕著な成功を収めた。
離散テキストコーパスと比較して、ビデオグラウンドは明示的な空間的レイアウトと時間的連続性を推論する。
ビデオモデルの推論能力を体系的に評価するために設計されたベンチマークであるVR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-11-19T03:18:29Z) - TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models [42.763907973320464]
TiViBench(TiViBench)は、画像対ビデオ(I2V)生成モデルの推論能力を評価するために設計された階層型ベンチマークである。
我々は、好みの最適化にインスパイアされた、シンプルで効果的なテストタイム戦略であるVideoTPOを紹介する。
TiViBenchとVideoTPOは共に、ビデオ生成モデルにおける推論の評価と進歩の道を開いた。
論文 参考訳(メタデータ) (2025-11-17T18:52:44Z) - VideoScore2: Think before You Score in Generative Video Evaluation [69.43069741467603]
VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。
我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
論文 参考訳(メタデータ) (2025-09-26T18:09:03Z) - VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning [21.35520258725298]
VQ-Insightは、AIGCビデオ品質評価のための新しい推論スタイルのフレームワークである。
画像品質のウォームアップ、タスク固有の時間学習、およびビデオ生成モデルとの協調最適化を組み合わせる。
選好比較、多次元スコア、自然なビデオスコアにおいて、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-23T12:20:14Z) - VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [74.17234924159108]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
我々は、人間の判断に一致した評価を確保するために、広範囲な人間のアノテーションを実行します。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - Enhance-A-Video: Better Generated Video for Free [57.620595159855064]
本稿では,DiTをベースとしたビデオのコヒーレンスと品質を高めるためのトレーニング不要な手法を提案する。
我々のアプローチは、リトレーニングや微調整なしに、ほとんどのDiTベースのビデオ生成フレームワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-11T12:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。