論文の概要: RISE-Video: Can Video Generators Decode Implicit World Rules?
- arxiv url: http://arxiv.org/abs/2602.05986v1
- Date: Thu, 05 Feb 2026 18:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.124266
- Title: RISE-Video: Can Video Generators Decode Implicit World Rules?
- Title(参考訳): RISE-Video:ビデオ・ジェネレーターは不必要な世界ルールを解読できるのか?
- Authors: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang,
- Abstract要約: テキスト画像合成(TI2V)の先駆的推論指向ベンチマークであるRISE-Videoを提案する。
RISE-Videoは、8つの厳格なカテゴリにまたがる、細心の注意深い人手によるサンプル467種からなる。
本研究では,LMM(Large Multimodal Models)を利用して人中心評価をエミュレートする自動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 71.92434352963427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: \textit{Reasoning Alignment}, \textit{Temporal Consistency}, \textit{Physical Rationality}, and \textit{Visual Quality}. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.
- Abstract(参考訳): 生成的ビデオモデルは目覚ましい視覚的忠実性を達成したが、暗黙の世界ルールを内在化し、推論する能力は、いまだに過小評価されていないフロンティアである。
このギャップを埋めるために,テキスト・イメージ・トゥ・ビデオ(TI2V)合成の先駆的な推論指向のベンチマークであるRISE-Videoを紹介した。
RISE-Videoは、8つの厳密なカテゴリにまたがる細心の注意を払って、コモンセンスや空間力学から特定の主題ドメインまで、さまざまな次元にわたるモデルインテリジェンスを探索するための構造化テストベッドを提供する。
本フレームワークでは,4つの指標から成る多次元評価プロトコルを導入している: \textit{Reasoning Alignment}, \textit{Temporal Consistency}, \textit{Physical Rationality}, \textit{Visual Quality}。
大規模マルチモーダルモデル(LMM)を利用して人中心評価をエミュレートする自動パイプラインを提案する。
11種類の最先端TI2Vモデルに対する大規模な実験は、暗黙の制約の下で複雑なシナリオをシミュレートする際の広範な欠陥を明らかにし、将来の世界シミュレーション生成モデルの進歩に重要な洞察を与える。
関連論文リスト
- AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes [63.055387623861094]
最近のテキスト・トゥ・ビデオ(T2V)モデルは、実世界の幾何学と物理法則の視覚シミュレーションにおいて強力な能力を示している。
本稿では,事前学習したT2Vモデルを用いて視点予測を行うための2段階のパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-12T15:55:44Z) - VideoVerse: How Far is Your T2V Generator from a World Model? [25.155601280571577]
VideoVerseは、T2Vモデルが現実世界の複雑な時間的因果関係と世界的知識を理解できるかどうかを評価するベンチマークである。
VideoVerseは、815のイベントと733のバイナリ評価質問を含む300の慎重にキュレートされたプロンプトで構成されている。
我々は、VideoVerse上で、最先端のオープンソースおよびクローズドソースT2Vモデルの体系的評価を行う。
論文 参考訳(メタデータ) (2025-10-09T16:18:20Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - UI2V-Bench: An Understanding-based Image-to-video Generation Benchmark [35.157850129371525]
I2V(Image-to-Video)の生成は、ビデオ合成の分野において重要な焦点となっている。
既存の評価ベンチマークは主にビデオの品質や時間的一貫性といった側面に焦点を当てている。
We propose UI2V-Bench, a novel benchmark for evaluation I2V model with focus on semantic understanding and reasoning。
論文 参考訳(メタデータ) (2025-09-29T08:14:26Z) - T2VWorldBench: A Benchmark for Evaluating World Knowledge in Text-to-Video Generation [12.843117062583502]
T2VWorldBenchは,テキスト・ビデオ・モデルのワールド・ナレッジ生成能力を評価するための,最初の体系的評価フレームワークである。
人間の嗜好とスケーラブルな評価の両方に対処するため,我々のベンチマークでは,視覚言語モデル(VLM)を用いた人的評価と自動評価の両方を取り入れている。
オープンソースから商用モデルまで、現在利用可能な10の高度なテキスト・ビデオモデルを評価し、ほとんどのモデルが世界の知識を理解し、真に正しいビデオを生成することができないことを発見した。
論文 参考訳(メタデータ) (2025-07-24T05:37:08Z) - MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。