論文の概要: GT-SVJ: Generative-Transformer-Based Self-Supervised Video Judge For Efficient Video Reward Modeling
- arxiv url: http://arxiv.org/abs/2602.05202v1
- Date: Thu, 05 Feb 2026 01:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.706768
- Title: GT-SVJ: Generative-Transformer-Based Self-Supervised Video Judge For Efficient Video Reward Modeling
- Title(参考訳): GT-SVJ:効率的なビデオリワードモデリングのためのジェネレーティブトランスフォーマーに基づく自己監督型ビデオジャッジ
- Authors: Shivanshu Shekhar, Uttaran Bhattacharya, Raghavendra Addanki, Mehrab Tanjim, Somdeb Sarkhel, Tong Zhang,
- Abstract要約: ビデオ生成モデルは本質的に、時間構造を報酬モデルとしてモデル化するために設計されている。
Modelnameは、GenAI-BenchとMonteBenchで30Kの人間アノテーションを使用して最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 18.51125967961176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Aligning video generative models with human preferences remains challenging: current approaches rely on Vision-Language Models (VLMs) for reward modeling, but these models struggle to capture subtle temporal dynamics. We propose a fundamentally different approach: repurposing video generative models, which are inherently designed to model temporal structure, as reward models. We present the Generative-Transformer-based Self-Supervised Video Judge (\modelname), a novel evaluation model that transforms state-of-the-art video generation models into powerful temporally-aware reward models. Our key insight is that generative models can be reformulated as energy-based models (EBMs) that assign low energy to high-quality videos and high energy to degraded ones, enabling them to discriminate video quality with remarkable precision when trained via contrastive objectives. To prevent the model from exploiting superficial differences between real and generated videos, we design challenging synthetic negative videos through controlled latent-space perturbations: temporal slicing, feature swapping, and frame shuffling, which simulate realistic but subtle visual degradations. This forces the model to learn meaningful spatiotemporal features rather than trivial artifacts. \modelname achieves state-of-the-art performance on GenAI-Bench and MonteBench using only 30K human-annotations: $6\times$ to $65\times$ fewer than existing VLM-based approaches.
- Abstract(参考訳): 現在のアプローチは報酬モデリングにビジョンランゲージモデル(VLM)に依存しているが、これらのモデルは微妙な時間的ダイナミクスを捉えるのに苦労している。
本稿では,時間構造をモデルとした映像生成モデルの再生を報酬モデルとして提案する。
本稿では,映像生成モデルを時間的に認識された報酬モデルに変換する新しい評価モデルである,生成変換器に基づく自己監督ビデオジャッジ(\modelname)を提案する。
我々の重要な洞察は、生成モデルは、高画質のビデオに低エネルギーを割り当て、劣化したビデオに高エネルギーを割り当てるエネルギーベースモデル(EBMs)として再構成することができ、対照的な目的によって訓練された場合、顕著な精度で映像品質を識別できるということである。
実ビデオと生成ビデオ間の表面的差異を生かさないよう、時間スライシング、機能スワップ、フレームシャッフルといった制御された潜在空間の摂動を通じて、現実的かつ微妙な視覚的劣化をシミュレートする、難解な合成陰性動画を設計する。
これにより、モデルは自明なアーティファクトではなく、有意義な時空間的特徴を学習せざるを得なくなる。
GenAI-Bench と MonteBench では,30K の人間アノテーションを使用して,最先端のパフォーマンスを実現している。
関連論文リスト
- The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.837937703425794]
LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。
本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文 参考訳(メタデータ) (2025-03-06T16:53:14Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。
AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。
AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T13:48:31Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。