論文の概要: LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
- arxiv url: http://arxiv.org/abs/2412.04814v1
- Date: Fri, 06 Dec 2024 07:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:14.317640
- Title: LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
- Title(参考訳): LiFT:テキスト・ビデオ・モデルアライメントのための人間のフィードバックを活用する
- Authors: Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li,
- Abstract要約: 本稿では,T2Vモデルのアライメントにヒトのフィードバックを活用する新しい微調整手法LiFTを提案する。
我々は,報酬関数を効果的に学習するために,報酬モデルLiFT-Criticを訓練する。
最後に、学習した報酬関数を利用して、報酬重み付き確率を最大化し、T2Vモデルを整列する。
- 参考スコア(独自算出の注目度): 15.11363628734519
- License:
- Abstract: Recent advancements in text-to-video (T2V) generative models have shown impressive capabilities. However, these models are still inadequate in aligning synthesized videos with human preferences (e.g., accurately reflecting text descriptions), which is particularly difficult to address, as human preferences are inherently subjective and challenging to formalize as objective functions. Therefore, this paper proposes LiFT, a novel fine-tuning method leveraging human feedback for T2V model alignment. Specifically, we first construct a Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k human annotations, each including a score and its corresponding rationale. Based on this, we train a reward model LiFT-Critic to learn reward function effectively, which serves as a proxy for human judgment, measuring the alignment between given videos and human expectations. Lastly, we leverage the learned reward function to align the T2V model by maximizing the reward-weighted likelihood. As a case study, we apply our pipeline to CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B across all 16 metrics, highlighting the potential of human feedback in improving the alignment and quality of synthesized videos.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成モデルの最近の進歩は印象的な能力を示している。
しかし、これらのモデルは、人間の嗜好が本質的に主観的であり、客観的機能として形式化することが難しいため、人間の嗜好と人間の嗜好(例えば、テキスト記述を正確に反映するなど)の整合性に依然として不十分である。
そこで本研究では,T2Vモデルアライメントに人間からのフィードバックを活かした新しい微調整手法LiFTを提案する。
具体的には、まず、スコアとそれに対応する論理を含む約10万の人間のアノテーションからなる人間のレーティングアノテーションデータセットLiFT-HRAを構築した。
これに基づいて、報酬モデルLiFT-Criticをトレーニングし、報酬関数を効果的に学習し、人間の判断のプロキシとして機能し、与えられたビデオと人間の期待の一致を測定する。
最後に、学習した報酬関数を利用して、報酬重み付き確率を最大化し、T2Vモデルを整列する。
ケーススタディとして、我々はパイプラインをCogVideoX-2Bに適用し、細調整されたモデルは16のメトリクスすべてでCogVideoX-5Bよりも優れており、合成されたビデオのアライメントと品質を改善するための人間のフィードバックの可能性を強調している。
関連論文リスト
- HuViDPO:Enhancing Video Generation through Direct Preference Optimization for Human-Centric Alignment [13.320911720001277]
本稿では,テキスト・ツー・ビデオ(T2V)タスクにDPO(Direct Preference Optimization)の戦略を導入する。
既存のT2V生成手法では、人間の好みで生成されたビデオのアライメントをガイドする、正確な損失関数を備えた十分に整形されたパイプラインが欠如している。
論文 参考訳(メタデータ) (2025-02-02T16:55:42Z) - Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training [35.43906754134253]
本稿では,映像の外観や動きを簡単にジョイントできるCustomTTTを提案する。
それぞれのLoRAは個別に訓練されているので、組み合わせた後にパラメータを更新するための新しいテストタイムトレーニング手法を提案する。
本手法は, 定性評価と定量的評価の両面で, 最先端の作業に優れる。
論文 参考訳(メタデータ) (2024-12-20T08:05:13Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - Free$^2$Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models [56.289828238673124]
Free$2$Guideは、生成したビデオをテキストプロンプトで整列するための、勾配のないフレームワークである。
Free$2$Guideは、様々な次元にわたるテキストアライメントを大幅に改善し、生成したビデオの全体的な品質を向上させる。
論文 参考訳(メタデータ) (2024-11-26T02:14:47Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。