論文の概要: VIPER: Process-aware Evaluation for Generative Video Reasoning
- arxiv url: http://arxiv.org/abs/2512.24952v1
- Date: Wed, 31 Dec 2025 16:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.708715
- Title: VIPER: Process-aware Evaluation for Generative Video Reasoning
- Title(参考訳): VIPER: 生成ビデオ推論のためのプロセス認識評価
- Authors: Yifan Li, Yukai Gu, Yingqian Min, Zikang Liu, Yifan Du, Kun Zhou, Min Yang, Wayne Xin Zhao, Minghui Qiu,
- Abstract要約: 我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
- 参考スコア(独自算出の注目度): 64.86465792516658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in video generation have demonstrated an emerging capability termed Chain-of-Frames (CoF) reasoning, where models resolve complex tasks through the generation of continuous frames. While these models show promise for Generative Video Reasoning (GVR), existing evaluation frameworks often rely on single-frame assessments, which can lead to outcome-hacking, where a model reaches a correct conclusion through an erroneous process. To address this, we propose a process-aware evaluation paradigm. We introduce VIPER, a comprehensive benchmark spanning 16 tasks across temporal, structural, symbolic, spatial, physics, and planning reasoning. Furthermore, we propose Process-outcome Consistency (POC@r), a new metric that utilizes VLM-as-Judge with a hierarchical rubric to evaluate both the validity of the intermediate steps and the final result. Our experiments reveal that state-of-the-art video models achieve only about 20% POC@1.0 and exhibit a significant outcome-hacking. We further explore the impact of test-time scaling and sampling robustness, highlighting a substantial gap between current video generation and true generalized visual reasoning. Our benchmark will be publicly released.
- Abstract(参考訳): ビデオ生成における最近のブレークスルーは、連続フレームの生成を通じて複雑なタスクをモデルが解決する、CoF(Chain-of-Frames)推論と呼ばれる新たな能力を示している。
これらのモデルが生成ビデオ推論(GVR)を約束する一方で、既存の評価フレームワークは単一のフレームアセスメントに依存しており、モデルが誤ったプロセスを通じて正しい結論に達する結果のハックにつながる可能性がある。
そこで本研究ではプロセス認識評価パラダイムを提案する。
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
さらに, VLM-as-Judge と階層型ルーブリックを併用したプロセスアウトカム一貫性(POC@r)を提案し, 中間ステップの有効性と最終結果の両立性を評価する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
さらに、テスト時間スケーリングとサンプリングロバスト性の影響について検討し、現在のビデオ生成と真の一般化された視覚的推論との実質的なギャップを浮き彫りにしている。
私たちのベンチマークは公開されます。
関連論文リスト
- MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation [48.84450712826316]
MSVBenchは、マルチショットビデオ生成に適した階層的なスクリプトと参照イメージを備えた最初の包括的なベンチマークである。
本稿では,大規模マルチモーダルモデルの高レベルな意味推論と,ドメイン固有のエキスパートモデルの微粒な知覚的厳密さを相乗化するハイブリッド評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-27T12:26:34Z) - CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation [52.0601996237501]
Chain-of-Frame(CoF)推論はフレーム単位の視覚的推論を可能にする。
CoF-T2Iは、プログレッシブ・ビジュアル・リファインメントによるテキスト・ツー・イメージ(T2I)生成にCoF推論を統合する。
実験の結果、CoF-T2Iはベースビデオモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-15T04:33:06Z) - Thinking with Frames: Generative Video Distortion Evaluation via Frame Reward Model [18.49759441592143]
生成ビデオにおける構造歪み評価に特化して設計されたフレームレベルの報酬モデルであるREACTを導入する。
ReACTは、歪みを認識することに集中して、ビデオフレームを推論することで、ポイントワイズスコアと属性ラベルを割り当てる。
また、再生ビデオ歪み評価のベンチマークであるREACT-Benchを提案する。
論文 参考訳(メタデータ) (2026-01-07T15:47:14Z) - Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。
データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。
品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:00:21Z) - Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum [36.360760591731484]
評価・データ・モデリングの共同設計に基づくフレームワークを導入する。
まず,ユニバーサルビデオ検索ベンチマーク(Universal Video Retrieval Benchmark, UVRB)を確立する。
第二に、UVRBの診断によってガイドされたスケーラブルなワークフローを導入し、1億5500万の高品質なペアを生成します。
第3に,汎用ビデオ埋め込み(GVE)をトレーニングするカリキュラムであるModality Pyramidを考案した。
論文 参考訳(メタデータ) (2025-10-31T15:54:48Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。