論文の概要: McSc: Motion-Corrective Preference Alignment for Video Generation with Self-Critic Hierarchical Reasoning
- arxiv url: http://arxiv.org/abs/2511.22974v1
- Date: Fri, 28 Nov 2025 08:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.820629
- Title: McSc: Motion-Corrective Preference Alignment for Video Generation with Self-Critic Hierarchical Reasoning
- Title(参考訳): McSc: 自己批判的階層的推論によるビデオ生成のための動き補正的選好アライメント
- Authors: Qiushi Yang, Yingjie Chen, Yuan Yao, Yifang Men, Huaizhuo Liu, Miaomiao Cui,
- Abstract要約: 自己批判的階層推論(McSc)を用いた動き補正アライメントを提案する。
McScは、堅牢な嗜好モデリングとアライメントのための強化学習フレームワークである。
実験の結果,McScはヒトの嗜好アライメントにおいて優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 23.881223707608513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) generation has achieved remarkable progress in producing high-quality videos aligned with textual prompts. However, aligning synthesized videos with nuanced human preference remains challenging due to the subjective and multifaceted nature of human judgment. Existing video preference alignment methods rely on costly human annotations or utilize proxy metrics to predict preference, which lacks the understanding of human preference logic. Moreover, they usually directly align T2V models with the overall preference distribution, ignoring potential conflict dimensions like motion dynamics and visual quality, which may bias models towards low-motion content. To address these issues, we present Motion-corrective alignment with Self-critic hierarchical Reasoning (McSc), a three-stage reinforcement learning framework for robust preference modeling and alignment. Firstly, Self-critic Dimensional Reasoning (ScDR) trains a generative reward model (RM) to decompose preferences into per-dimension assessments, using self-critic reasoning chains for reliable learning. Secondly, to achieve holistic video comparison, we introduce Hierarchical Comparative Reasoning (HCR) for structural multi-dimensional reasoning with hierarchical reward supervision. Finally, using RM-preferred videos, we propose Motion-corrective Direct Preference Optimization (McDPO) to optimize T2V models, while dynamically re-weighting alignment objective to mitigate bias towards low-motion content. Experiments show that McSc achieves superior performance in human preference alignment and generates videos with high-motion dynamic.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は,テキスト・プロンプトに整合した高品質なビデオの製作において顕著な進歩を遂げている。
しかし、人間の判断の主観的・多面的な性質から、合成ビデオと人間の嗜好を調和させることは依然として困難である。
既存のビデオ嗜好アライメント手法は、人間の嗜好ロジックの理解が欠如しているため、コストのかかるアノテーションやプロキシメトリクスを使って嗜好を予測する。
さらに、彼らは通常、T2Vモデルと全体的な嗜好分布を直接整合させ、モーションダイナミクスや視覚的品質のような潜在的な衝突次元を無視し、低モーションコンテンツに対するモデルにバイアスを与える。
これらの課題に対処するため、我々は、堅牢な嗜好モデリングとアライメントのための3段階強化学習フレームワークである、自己批判的階層推論(McSc)を用いた動き補正アライメントを提案する。
第一に、自己批判的次元推論(ScDR)は、生成的報酬モデル(RM)を訓練し、信頼性のある学習のために自己批判的推論連鎖を用いて、嗜好を次元ごとの評価に分解する。
次に,階層的報酬管理を伴う構造的多次元推論のための階層的比較推論(HCR)を提案する。
最後に、RM-preferredビデオを用いて、T2Vモデルの最適化にMcDPO(Motion-corrective Direct Preference Optimization)を提案する。
実験により、McScは人間の嗜好アライメントにおいて優れた性能を示し、ハイモーションダイナミックなビデオを生成する。
関連論文リスト
- DynamicEval: Rethinking Evaluation for Dynamic Text-to-Video Synthesis [17.750053029702222]
既存のテキスト・トゥ・ビデオ(T2V)評価ベンチマークであるVBenchやEvalCrafterには2つの制限がある。
ダイナミックカメラの動きを強調するプロンプトを体系的にキュレートしたベンチマークであるDynamicEvalを紹介する。
背景環境の整合性を示すために,Vbench運動の滑らか度測定値に基づく解釈可能な誤差マップを得る。
提案手法は,映像レベルとモデルレベルの両方において,人間の嗜好と強い相関関係を示す。
論文 参考訳(メタデータ) (2025-10-08T18:41:04Z) - Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation [80.89133198952187]
PhysHPOは階層的クロスモーダル直接参照最適化のための新しいフレームワークである。
物理的に妥当なビデオ生成のための微妙な好み調整を可能にする。
また,PhysHPOは,高度なモデルの物理的妥当性と全体的な映像生成品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-08-14T17:30:37Z) - Dynamic Concepts Personalization from Single Videos [92.62863918003575]
動的概念で生成ビデオモデルをパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャにおいて,時間的重み空間を課す。
我々のフレームワークは動的概念をビデオモデルの出力領域に埋め込んでおり、前例のない編集性と構成性を実現している。
論文 参考訳(メタデータ) (2025-02-20T18:53:39Z) - Improving Video Generation with Human Feedback [105.81833319891537]
我々は,人間のフィードバックを利用して映像生成問題を緩和するシステムパイプラインを開発した。
我々は,多次元ビデオ報酬モデルであるVideoRewardを紹介し,アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment [15.11363628734519]
本稿では,T2Vモデルアライメントにヒトのフィードバックを利用するLiFTを提案する。
我々はまず,約10kの人間のアノテーションからなるヒューマンレーティングHRAを構築し,それぞれがスコアとそれに対応する論理を含む。
そこで我々は,報酬関数を効果的に学習するために,報酬モデルLiFT-Criticを訓練する。
最後に、学習した報酬関数を利用して、報酬重み付き確率を最大化し、T2Vモデルを整列する。
論文 参考訳(メタデータ) (2024-12-06T07:16:14Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - Enhancing Sequential Recommender with Large Language Models for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。
提案手法は,逐次レコメンデーション(SR)モデルと補足型大言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。
特に、コメント視聴時間の累積増加率は4.13%に達した。
論文 参考訳(メタデータ) (2024-03-20T13:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。