論文の概要: VIPER: Process-aware Evaluation for Generative Video Reasoning
- arxiv url: http://arxiv.org/abs/2512.24952v1
- Date: Wed, 31 Dec 2025 16:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.708715
- Title: VIPER: Process-aware Evaluation for Generative Video Reasoning
- Title(参考訳): VIPER: 生成ビデオ推論のためのプロセス認識評価
- Authors: Yifan Li, Yukai Gu, Yingqian Min, Zikang Liu, Yifan Du, Kun Zhou, Min Yang, Wayne Xin Zhao, Minghui Qiu,
- Abstract要約: 我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
- 参考スコア(独自算出の注目度): 64.86465792516658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in video generation have demonstrated an emerging capability termed Chain-of-Frames (CoF) reasoning, where models resolve complex tasks through the generation of continuous frames. While these models show promise for Generative Video Reasoning (GVR), existing evaluation frameworks often rely on single-frame assessments, which can lead to outcome-hacking, where a model reaches a correct conclusion through an erroneous process. To address this, we propose a process-aware evaluation paradigm. We introduce VIPER, a comprehensive benchmark spanning 16 tasks across temporal, structural, symbolic, spatial, physics, and planning reasoning. Furthermore, we propose Process-outcome Consistency (POC@r), a new metric that utilizes VLM-as-Judge with a hierarchical rubric to evaluate both the validity of the intermediate steps and the final result. Our experiments reveal that state-of-the-art video models achieve only about 20% POC@1.0 and exhibit a significant outcome-hacking. We further explore the impact of test-time scaling and sampling robustness, highlighting a substantial gap between current video generation and true generalized visual reasoning. Our benchmark will be publicly released.
- Abstract(参考訳): ビデオ生成における最近のブレークスルーは、連続フレームの生成を通じて複雑なタスクをモデルが解決する、CoF(Chain-of-Frames)推論と呼ばれる新たな能力を示している。
これらのモデルが生成ビデオ推論(GVR)を約束する一方で、既存の評価フレームワークは単一のフレームアセスメントに依存しており、モデルが誤ったプロセスを通じて正しい結論に達する結果のハックにつながる可能性がある。
そこで本研究ではプロセス認識評価パラダイムを提案する。
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
さらに, VLM-as-Judge と階層型ルーブリックを併用したプロセスアウトカム一貫性(POC@r)を提案し, 中間ステップの有効性と最終結果の両立性を評価する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
さらに、テスト時間スケーリングとサンプリングロバスト性の影響について検討し、現在のビデオ生成と真の一般化された視覚的推論との実質的なギャップを浮き彫りにしている。
私たちのベンチマークは公開されます。
関連論文リスト
- Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。
データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。
品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:00:21Z) - Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum [36.360760591731484]
評価・データ・モデリングの共同設計に基づくフレームワークを導入する。
まず,ユニバーサルビデオ検索ベンチマーク(Universal Video Retrieval Benchmark, UVRB)を確立する。
第二に、UVRBの診断によってガイドされたスケーラブルなワークフローを導入し、1億5500万の高品質なペアを生成します。
第3に,汎用ビデオ埋め込み(GVE)をトレーニングするカリキュラムであるModality Pyramidを考案した。
論文 参考訳(メタデータ) (2025-10-31T15:54:48Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。