論文の概要: AesRM: Improving Video Aesthetics with Expert-Level Feedback
- arxiv url: http://arxiv.org/abs/2604.28078v1
- Date: Thu, 30 Apr 2026 16:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.197596
- Title: AesRM: Improving Video Aesthetics with Expert-Level Feedback
- Title(参考訳): AesRM: エキスパートレベルフィードバックによるビデオ美学の改善
- Authors: Yujin Han, Yujie Wei, Yefei He, Xinyu Liu, Tianle Li, Zichao Yu, Andi Han, Shiwei Zhang, Tingyu Weng, Difan Zou,
- Abstract要約: 映画製作のような現実世界の応用には、映像の美学が視覚的忠実性を超えて必要である。
映像美学を視覚美学(VA)、視覚忠実度(VF)、視覚プラウザビリティ(VP)の3つの要素に分解する階層型ルーブリックを提案する。
このフレームワークは、大規模なエキスパートアノテートされた好みデータセットと評価ベンチマーク、AesVideo-Benchを可能にする。
- 参考スコア(独自算出の注目度): 43.42711744384817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid advances in photorealistic video generation, real-world applications such as filmmaking require video aesthetics, e.g., harmonious colors and cinematic lighting, beyond visual fidelity. Prior work on visual aesthetics largely focuses on images, often reducing aesthetics to coarse definitions, e.g., visual pleasure, without a rigorous and systematic evaluation. To improve video aesthetics, we propose a hierarchical rubric that decomposes video aesthetics into three core dimensions, Visual Aesthetics (VA), Visual Fidelity (VF), and Visual Plausibility (VP), with 15 fine-grained criteria, e.g., shot composition. This framework enables a large-scale expert-annotated preference dataset and an evaluation benchmark, AesVideo-Bench, containing about 2500 video pairs with expert annotations on VA, VF, and VP. We then build a family of Video Aesthetic Reward Models (AesRM): AesRM-Base, which directly predicts pairwise preferences on these dimensions to provide efficient post-training rewards, and AesRM-CoT, which additionally generates CoT aligned with all 15 criteria to improve assessment interpretability. Specifically, we train AesRM with a three-stage progressive scheme: (1) Atomic Aesthetic Capability Learning, which strengthens AesRM's recognition of fundamental aesthetic concepts, e.g., accurately identifying centered composition; (2) Cold-Start, aligning the model with structured reasoning protocols; and (3) GRPO, further improving evaluation accuracy. To enhance AesRM-CoT, we additionally propose self-consistency-based CoT synthesis to improve CoT quality and design CoT-based process rewards during GRPO. Extensive experiments show AesRM outperforms baselines on multiple aesthetics benchmarks and is more robust, with lower position bias. Finally, we align Wan2.2 with AesRM and observe clear aesthetic gains over existing aesthetic reward models.
- Abstract(参考訳): フォトリアリスティックなビデオ生成の急速な進歩にもかかわらず、映画製作のような現実世界の応用には、映像の美学、例えば調和した色、そして視覚的忠実性を超えた撮影照明が必要である。
視覚美学に関する以前の研究は主に画像に焦点を当てており、しばしば美学を粗い定義(例えば視覚的快楽)に減らし、厳密で体系的な評価をしない。
映像美学を改善するために,映像美学を視覚美学(VA),視覚忠実度(VF),視覚プラウザビリティ(VP)の3つのコア次元に分解する階層的ルーブリックを提案する。
このフレームワークは、VA、VF、VPに専門家アノテーションを付加した約2500のビデオペアを含む、大規模なエキスパートアノテートデータセットと評価ベンチマークAesVideo-Benchを可能にする。
次に,ビデオ美容モデル(AesRM:AesRM-Base:AesRM-Base:AesRM-CoT:AesRM-Base:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT: AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT: AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-Co)を構築し,AesRM-CoT(AesRM-Co)とAesRM-CoT-CoT。
具体的には,(1)AesRMの基本的審美概念の認識を強化するアトミック・審美能力学習,(2)コールド・スタート,(3)モデルと構造化推論プロトコルの整合性,(3)GRPO,の3段階のプログレッシブ・スキームを用いて,AesRMを訓練する。
AesRM-CoTを向上させるために, GRPOにおけるCoTの品質向上とCoTプロセス報酬設計のために, 自己整合CoT合成を提案する。
大規模な実験では、AesRMは複数の美学ベンチマークでベースラインを上回り、より堅牢で、位置バイアスが低い。
最後に、Wan2.2をAesRMと整列させ、既存の美的報酬モデルよりも明確な美的利益を観察する。
関連論文リスト
- VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation [65.0648741395158]
VGA-Benchは、ビデオ生成の品質と美的品質を評価するための統一されたベンチマークである。
我々は1016の多様なプロンプトを設計し、12のビデオ生成モデルを用いて6万以上のビデオの大規模データセットを生成する。
我々のモデルは人間の判断と信頼できる一致を実現し、精度と効率の両方を提供する。
論文 参考訳(メタデータ) (2026-04-11T09:44:39Z) - Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks [26.53088863857899]
画像美学評価(IAA)は、コンテンツ作成、アルバム管理、レコメンデーションシステムに広く応用されている。
最先端のIAAモデルは一般に粗い粒度の評価のために設計されている。
相対ランクから識別的美的スコアを学習する新しいIAAフレームワークであるFGAesQを提案する。
論文 参考訳(メタデータ) (2026-03-04T10:13:27Z) - Unified Personalized Reward Model for Vision Generation [27.496220369122494]
視覚生成のためのパーソナライズされた報酬モデルであるUnifiedReward-Flexを提案する。
我々はまず,高度閉ソースVLMからブートストラップSFTまで,構造化された高品質な推論トレースを蒸留した。
次に、慎重にキュレートされた選好ペア上で直接選好最適化(DPO)を行い、推論の忠実度と識別的アライメントをさらに強化する。
論文 参考訳(メタデータ) (2026-02-02T17:44:21Z) - Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization [63.169050703903515]
強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
論文 参考訳(メタデータ) (2025-09-26T04:55:00Z) - EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。
現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-06-13T08:00:54Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。