Fugu-MT 論文翻訳(概要): AesRM: Improving Video Aesthetics with Expert-Level Feedback

論文の概要: AesRM: Improving Video Aesthetics with Expert-Level Feedback

arxiv url: http://arxiv.org/abs/2604.28078v1
Date: Thu, 30 Apr 2026 16:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:54.197596
Title: AesRM: Improving Video Aesthetics with Expert-Level Feedback
Title（参考訳）: AesRM: エキスパートレベルフィードバックによるビデオ美学の改善
Authors: Yujin Han, Yujie Wei, Yefei He, Xinyu Liu, Tianle Li, Zichao Yu, Andi Han, Shiwei Zhang, Tingyu Weng, Difan Zou,
Abstract要約: 映画製作のような現実世界の応用には、映像の美学が視覚的忠実性を超えて必要である。映像美学を視覚美学(VA)、視覚忠実度(VF)、視覚プラウザビリティ(VP)の3つの要素に分解する階層型ルーブリックを提案する。このフレームワークは、大規模なエキスパートアノテートされた好みデータセットと評価ベンチマーク、AesVideo-Benchを可能にする。
参考スコア（独自算出の注目度）: 43.42711744384817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite rapid advances in photorealistic video generation, real-world applications such as filmmaking require video aesthetics, e.g., harmonious colors and cinematic lighting, beyond visual fidelity. Prior work on visual aesthetics largely focuses on images, often reducing aesthetics to coarse definitions, e.g., visual pleasure, without a rigorous and systematic evaluation. To improve video aesthetics, we propose a hierarchical rubric that decomposes video aesthetics into three core dimensions, Visual Aesthetics (VA), Visual Fidelity (VF), and Visual Plausibility (VP), with 15 fine-grained criteria, e.g., shot composition. This framework enables a large-scale expert-annotated preference dataset and an evaluation benchmark, AesVideo-Bench, containing about 2500 video pairs with expert annotations on VA, VF, and VP. We then build a family of Video Aesthetic Reward Models (AesRM): AesRM-Base, which directly predicts pairwise preferences on these dimensions to provide efficient post-training rewards, and AesRM-CoT, which additionally generates CoT aligned with all 15 criteria to improve assessment interpretability. Specifically, we train AesRM with a three-stage progressive scheme: (1) Atomic Aesthetic Capability Learning, which strengthens AesRM's recognition of fundamental aesthetic concepts, e.g., accurately identifying centered composition; (2) Cold-Start, aligning the model with structured reasoning protocols; and (3) GRPO, further improving evaluation accuracy. To enhance AesRM-CoT, we additionally propose self-consistency-based CoT synthesis to improve CoT quality and design CoT-based process rewards during GRPO. Extensive experiments show AesRM outperforms baselines on multiple aesthetics benchmarks and is more robust, with lower position bias. Finally, we align Wan2.2 with AesRM and observe clear aesthetic gains over existing aesthetic reward models.
Abstract（参考訳）: フォトリアリスティックなビデオ生成の急速な進歩にもかかわらず、映画製作のような現実世界の応用には、映像の美学、例えば調和した色、そして視覚的忠実性を超えた撮影照明が必要である。視覚美学に関する以前の研究は主に画像に焦点を当てており、しばしば美学を粗い定義(例えば視覚的快楽)に減らし、厳密で体系的な評価をしない。映像美学を改善するために,映像美学を視覚美学(VA),視覚忠実度(VF),視覚プラウザビリティ(VP)の3つのコア次元に分解する階層的ルーブリックを提案する。このフレームワークは、VA、VF、VPに専門家アノテーションを付加した約2500のビデオペアを含む、大規模なエキスパートアノテートデータセットと評価ベンチマークAesVideo-Benchを可能にする。次に,ビデオ美容モデル(AesRM:AesRM-Base:AesRM-Base:AesRM-CoT:AesRM-Base:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT: AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT: AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-CoT:AesRM-Co)を構築し,AesRM-CoT(AesRM-Co)とAesRM-CoT-CoT。具体的には,(1)AesRMの基本的審美概念の認識を強化するアトミック・審美能力学習,(2)コールド・スタート,(3)モデルと構造化推論プロトコルの整合性,(3)GRPO,の3段階のプログレッシブ・スキームを用いて,AesRMを訓練する。 AesRM-CoTを向上させるために, GRPOにおけるCoTの品質向上とCoTプロセス報酬設計のために, 自己整合CoT合成を提案する。大規模な実験では、AesRMは複数の美学ベンチマークでベースラインを上回り、より堅牢で、位置バイアスが低い。最後に、Wan2.2をAesRMと整列させ、既存の美的報酬モデルよりも明確な美的利益を観察する。

論文の概要: AesRM: Improving Video Aesthetics with Expert-Level Feedback

関連論文リスト