論文の概要: Thinking with Frames: Generative Video Distortion Evaluation via Frame Reward Model
- arxiv url: http://arxiv.org/abs/2601.04033v1
- Date: Wed, 07 Jan 2026 15:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.673414
- Title: Thinking with Frames: Generative Video Distortion Evaluation via Frame Reward Model
- Title(参考訳): フレームによる思考:フレームリワードモデルによる生成的ビデオ歪み評価
- Authors: Yuan Wang, Borui Liao, Huijuan Huang, Jinda Lu, Ouxiang Li, Kuien Liu, Meng Wang, Xiang Wang,
- Abstract要約: 生成ビデオにおける構造歪み評価に特化して設計されたフレームレベルの報酬モデルであるREACTを導入する。
ReACTは、歪みを認識することに集中して、ビデオフレームを推論することで、ポイントワイズスコアと属性ラベルを割り当てる。
また、再生ビデオ歪み評価のベンチマークであるREACT-Benchを提案する。
- 参考スコア(独自算出の注目度): 18.49759441592143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video reward models and post-training strategies have improved text-to-video (T2V) generation. While these models typically assess visual quality, motion quality, and text alignment, they often overlook key structural distortions, such as abnormal object appearances and interactions, which can degrade the overall quality of the generative video. To address this gap, we introduce REACT, a frame-level reward model designed specifically for structural distortions evaluation in generative videos. REACT assigns point-wise scores and attribution labels by reasoning over video frames, focusing on recognizing distortions. To support this, we construct a large-scale human preference dataset, annotated based on our proposed taxonomy of structural distortions, and generate additional data using a efficient Chain-of-Thought (CoT) synthesis pipeline. REACT is trained with a two-stage framework: ((1) supervised fine-tuning with masked loss for domain knowledge injection, followed by (2) reinforcement learning with Group Relative Policy Optimization (GRPO) and pairwise rewards to enhance reasoning capability and align output scores with human preferences. During inference, a dynamic sampling mechanism is introduced to focus on frames most likely to exhibit distortion. We also present REACT-Bench, a benchmark for generative video distortion evaluation. Experimental results demonstrate that REACT complements existing reward models in assessing structutal distortion, achieving both accurate quantitative evaluations and interpretable attribution analysis.
- Abstract(参考訳): ビデオ報酬モデルとポストトレーニング戦略の最近の進歩により、テキスト・ツー・ビデオ(T2V)生成が改善されている。
これらのモデルは通常、視覚的品質、動きの質、テキストのアライメントを評価するが、しばしば、異常な物体の外観や相互作用などの重要な構造的歪みを見落とし、生成ビデオの全体的な品質を低下させる。
このギャップに対処するために、生成ビデオにおける構造歪み評価に特化して設計されたフレームレベルの報酬モデルREACTを導入する。
REACTは、歪みを認識することに集中して、ビデオフレームを推論することで、ポイントワイズスコアと属性ラベルを割り当てる。
これを支援するために,提案した構造歪みの分類に基づいて注釈を付した大規模人間の嗜好データセットを構築し,効率的なチェーン・オブ・ソート(CoT)合成パイプラインを用いて付加データを生成する。
REACTは、(1)ドメイン知識注入のマスク付き損失を伴う教師付き微調整、(2)グループ相対政策最適化(GRPO)による強化学習、そして、推論能力を高め、出力スコアを人間の好みに合わせるためのペアワイズ報酬という2段階の枠組みで訓練されている。
推論中は、歪みを示す可能性が最も高いフレームにフォーカスするために動的サンプリング機構が導入される。
また、再生ビデオ歪み評価のベンチマークであるREACT-Benchを提案する。
実験の結果,REACTは構造歪みの評価において既存の報酬モデルを補完し,正確な定量的評価と解釈可能な帰属分析の両方を達成していることがわかった。
関連論文リスト
- VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - Content Adaptive based Motion Alignment Framework for Learned Video Compression [72.13599533975413]
本稿では,コンテンツ適応型モーションアライメントフレームワークを提案する。
まず、粗いオフセット予測とマスク変調により動き補償を洗練させる2段階の流動誘導変形防止機構を導入する。
第2に,基準品質に基づいて歪み重みを調整するマルチ参照品質認識戦略を提案する。
第3に,スムーズな動き推定を得るために,フレームを大きさと解像度でダウンサンプルするトレーニングフリーモジュールを統合する。
論文 参考訳(メタデータ) (2025-12-15T02:51:47Z) - Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。
データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。
品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:00:21Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Benchmark Generation Framework with Customizable Distortions for Image
Classifier Robustness [4.339574774938128]
本稿では,画像分類モデルのロバスト性を評価するために,逆ベンチマークを生成する新しいフレームワークを提案する。
当社のフレームワークでは,画像に最適な歪みの種類をカスタマイズすることが可能で,デプロイメントに関連する歪みに対処する上で有効である。
論文 参考訳(メタデータ) (2023-10-28T07:40:42Z) - Diffusion Probabilistic Modeling for Video Generation [17.48026395867434]
拡散確率モデルは、知覚メトリクス上のGANと競合する新しい生成モデルである。
ニューラルビデオ圧縮の最近の進歩にインスパイアされた我々は、デノナイジング拡散モデルを使用して、決定論的次フレーム予測に残留するベースラインを生成する。
複雑な高解像度ビデオのフレーム予測において,すべてのデータに対する知覚的品質の面での大幅な改善と,その改善が期待できる。
論文 参考訳(メタデータ) (2022-03-16T03:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。