論文の概要: LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
- arxiv url: http://arxiv.org/abs/2412.04814v3
- Date: Wed, 05 Mar 2025 02:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 17:18:40.302012
- Title: LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
- Title(参考訳): LiFT:テキスト・ビデオ・モデルアライメントのための人間のフィードバックを活用する
- Authors: Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li,
- Abstract要約: 本稿では,T2Vモデルアライメントにヒトのフィードバックを利用するLiFTを提案する。
我々はまず,約10kの人間のアノテーションからなるヒューマンレーティングHRAを構築し,それぞれがスコアとそれに対応する論理を含む。
そこで我々は,報酬関数を効果的に学習するために,報酬モデルLiFT-Criticを訓練する。
最後に、学習した報酬関数を利用して、報酬重み付き確率を最大化し、T2Vモデルを整列する。
- 参考スコア(独自算出の注目度): 15.11363628734519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-video (T2V) generative models have shown impressive capabilities. However, these models are still inadequate in aligning synthesized videos with human preferences (e.g., accurately reflecting text descriptions), which is particularly difficult to address, as human preferences are subjective and challenging to formalize as objective functions. Existing studies train video quality assessment models that rely on human-annotated ratings for video evaluation but overlook the reasoning behind evaluations, limiting their ability to capture nuanced human criteria. Moreover, aligning T2V model using video-based human feedback remains unexplored. Therefore, this paper proposes LiFT, the first method designed to leverage human feedback for T2V model alignment. Specifically, we first construct a Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k human annotations, each including a score and its corresponding rationale. Based on this, we train a reward model LiFT-Critic to learn reward function effectively, which serves as a proxy for human judgment, measuring the alignment between given videos and human expectations. Lastly, we leverage the learned reward function to align the T2V model by maximizing the reward-weighted likelihood. As a case study, we apply our pipeline to CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B across all 16 metrics, highlighting the potential of human feedback in improving the alignment and quality of synthesized videos.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成モデルの最近の進歩は印象的な能力を示している。
しかし、これらのモデルは、人間の嗜好が主観的であり、客観的機能として形式化することが難しいため、人間の嗜好(例えば、テキスト記述を正確に反映するなど)と合成ビデオの整合に依然として不十分である。
既存の研究では、人間のアノテーションによる評価をビデオ評価に頼っているが、評価の背景にある理由を見落として、人間の不適切な基準を捉える能力を制限するビデオ品質評価モデルを訓練している。
さらに、ビデオベースのヒューマンフィードバックを用いたT2Vモデルの整列も未検討である。
そこで本研究では,T2Vモデルアライメントにヒトのフィードバックを活用するための最初の方法であるLiFTを提案する。
具体的には、まず、スコアとそれに対応する論理を含む約10万の人間のアノテーションからなる人間のレーティングアノテーションデータセットLiFT-HRAを構築した。
これに基づいて、報酬モデルLiFT-Criticをトレーニングし、報酬関数を効果的に学習し、人間の判断のプロキシとして機能し、与えられたビデオと人間の期待の一致を測定する。
最後に、学習した報酬関数を利用して、報酬重み付き確率を最大化し、T2Vモデルを整列する。
ケーススタディとして、我々はパイプラインをCogVideoX-2Bに適用し、細調整されたモデルは16のメトリクスすべてでCogVideoX-5Bよりも優れており、合成されたビデオのアライメントと品質を改善するための人間のフィードバックの可能性を強調している。
関連論文リスト
- VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。
説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。
実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T07:04:55Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。
VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。
我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。