論文の概要: Aligning Anime Video Generation with Human Feedback
- arxiv url: http://arxiv.org/abs/2504.10044v1
- Date: Mon, 14 Apr 2025 09:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:36.123432
- Title: Aligning Anime Video Generation with Human Feedback
- Title(参考訳): 人間のフィードバックによるアニメ映像のアライメント
- Authors: Bingwen Zhu, Yudong Jiang, Baohan Xu, Siqian Yang, Mingyu Yin, Yidi Wu, Huyang Sun, Zuxuan Wu,
- Abstract要約: アニメビデオ生成は、アニメデータの不足と異常な動きパターンのために大きな課題に直面している。
既存の報酬モデルは、主に現実世界のビデオ用に設計されており、アニメのユニークな外観と一貫性の要求を捉えていない。
そこで本研究では,人間のフィードバックを有効活用して,アニメ映像生成を向上するためのパイプラインを提案する。
- 参考スコア(独自算出の注目度): 31.701968335565393
- License:
- Abstract: Anime video generation faces significant challenges due to the scarcity of anime data and unusual motion patterns, leading to issues such as motion distortion and flickering artifacts, which result in misalignment with human preferences. Existing reward models, designed primarily for real-world videos, fail to capture the unique appearance and consistency requirements of anime. In this work, we propose a pipeline to enhance anime video generation by leveraging human feedback for better alignment. Specifically, we construct the first multi-dimensional reward dataset for anime videos, comprising 30k human-annotated samples that incorporating human preferences for both visual appearance and visual consistency. Based on this, we develop AnimeReward, a powerful reward model that employs specialized vision-language models for different evaluation dimensions to guide preference alignment. Furthermore, we introduce Gap-Aware Preference Optimization (GAPO), a novel training method that explicitly incorporates preference gaps into the optimization process, enhancing alignment performance and efficiency. Extensive experiment results show that AnimeReward outperforms existing reward models, and the inclusion of GAPO leads to superior alignment in both quantitative benchmarks and human evaluations, demonstrating the effectiveness of our pipeline in enhancing anime video quality. Our dataset and code will be publicly available.
- Abstract(参考訳): アニメビデオ生成は、アニメデータの不足と異常な動きパターンによって大きな課題に直面し、動きの歪みやフリックングアーティファクトといった問題を引き起こし、人間の好みと不一致をもたらす。
既存の報酬モデルは、主に現実世界のビデオ用に設計されており、アニメのユニークな外観と一貫性の要求を捉えていない。
そこで本研究では,人間のフィードバックを活かしてアニメーション映像生成を向上し,アライメントを向上させるパイプラインを提案する。
具体的には、視覚的外観と視覚的整合性の両方に人間の嗜好を取り入れた30万の人注サンプルからなる、アニメビデオのための最初の多次元報酬データセットを構築した。
そこで我々は,好みのアライメントを導出するために,異なる評価次元に対して特殊視覚言語モデルを利用する強力な報酬モデルAnimeRewardを開発した。
さらに,GAPO(Gap-Aware Preference Optimization, Gap-Aware Preference Optimization, Gap-Aware Preference Optimization, Gap-Aware Preference Optimization, Gap-Aware Preference Optimization, Gap-Aware Preference Optimization, Gap-Aware Preference Optimization, GAPO)を導入する。
実験結果から,AnimeRewardは既存の報酬モデルよりも優れており,GAPOを組み込むことにより,定量的ベンチマークと人的評価の両面でのアライメントが向上し,アニメ映像の品質向上におけるパイプラインの有効性が示された。
データセットとコードは公開されます。
関連論文リスト
- Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation [70.68566282567207]
画像生成と映像生成の両方において人間の視覚的嗜好を学習するためのフレームワークであるVisionRewardを紹介する。
VisionRewardは、マシンメトリクスと人的評価の両方において、既存の画像およびビデオ報酬モデルを大幅に上回ることができる。
論文 参考訳(メタデータ) (2024-12-30T16:24:09Z) - VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [48.36302380755874]
DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。
本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-12-18T18:59:49Z) - SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner [46.75063691424628]
我々は、主観的動画カスタマイズのためのゼロショット方式SUGARを提案する。
入力画像が与えられた場合、SUGARは被写体のビデオを生成し、任意の視覚属性で生成を調整できる。
論文 参考訳(メタデータ) (2024-12-13T20:01:51Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - Hybrid Recommendation System using Graph Neural Network and BERT
Embeddings [0.0]
本稿では,グラフニューラルネットワーク(GNN)と文変換器の埋め込みを併用して,異なるユーザに対するアニメレコメンデーションを予測する新しいモデルを提案する。
提案手法は,アニメレコメンデーションシステムの精度と有効性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-10-07T17:24:41Z) - Learning Data-Driven Vector-Quantized Degradation Model for Animation
Video Super-Resolution [59.71387128485845]
アニメーションビデオの特徴を探求し、より実用的なアニメーションVSRモデルのための実世界のアニメーションデータの豊富な事前情報を活用する。
本稿では,グローバルな構造から局所的な詳細を分解する,マルチスケールなベクトル量子化分解モデルを提案する。
先行データを抽出するために、リッチコンテンツリアルアニメーション低品質(RAL)ビデオデータセットを収集する。
論文 参考訳(メタデータ) (2023-03-17T08:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。