Fugu-MT 論文翻訳(概要): VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

論文の概要: VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

arxiv url: http://arxiv.org/abs/2406.15252v3
Date: Mon, 14 Oct 2024 04:08:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 08:36:25.755507
Title: VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
Title（参考訳）: VideoScore:ビデオ生成のための微粒な人間のフィードバックをシミュレートする自動メトリクスを作る
Authors: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen,
Abstract要約: 我々は、37.6K以上の合成ビデオで人為的なマルチアスペクトスコアを含む最初の大規模データセットであるVideoFeedbackをリリースした。実験では、VideoScoreと人間の間のSpearman相関が、VideoFeedback-testで77.1に達することが示され、以前のベストメトリクスを約50ポイント上回った。
参考スコア（独自算出の注目度）: 38.84663997781797
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent years have witnessed great advances in video generation. However, the development of automatic video metrics is lagging significantly behind. None of the existing metric is able to provide reliable scores over generated videos. The main barrier is the lack of large-scale human-annotated dataset. In this paper, we release VideoFeedback, the first large-scale dataset containing human-provided multi-aspect score over 37.6K synthesized videos from 11 existing video generative models. We train VideoScore (initialized from Mantis) based on VideoFeedback to enable automatic video quality assessment. Experiments show that the Spearman correlation between VideoScore and humans can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about 50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and VBench show that VideoScore has consistently much higher correlation with human judges than other metrics. Due to these results, we believe VideoScore can serve as a great proxy for human raters to (1) rate different video models to track progress (2) simulate fine-grained human feedback in Reinforcement Learning with Human Feedback (RLHF) to improve current video generation models.
Abstract（参考訳）: 近年、ビデオ生成の進歩が目覚ましい。しかし、自動ビデオメトリクスの開発は大幅に遅れている。既存のメトリクスでは、生成されたビデオに対して信頼できるスコアを提供することはできません。主な障壁は、大規模なヒューマンアノテートデータセットの欠如である。本稿では,既存の11種類のビデオ生成モデルから合成した37.6K以上の人為的マルチアスペクトスコアを含む,最初の大規模データセットであるVideoFeedbackをリリースする。ビデオ品質の自動評価を可能にするために、VideoFeedbackに基づいてVideoScore(Mantisから初期化)をトレーニングする。実験によると、VideoScoreと人間の間のSpearmanの相関は、VideoFeedback-testで77.1に達し、以前のベストメトリクスを約50ポイント上回っている。他のホールドアウトされたEvalCrafter、GenAI-Bench、VBenchのさらなる結果は、VideoScoreが他のメトリクスよりもはるかに高い相関性を持っていることを示している。これらの結果から,VoiceScoreは,(1)進行追跡のために異なる動画モデルをレートすること,(2)RLHF(Reinforcement Learning with Human Feedback)におけるきめ細かい人間のフィードバックをシミュレートして,現在の映像生成モデルを改善するための優れたプロキシとして機能すると考えている。

関連論文リスト

Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文参考訳（メタデータ） (2025-04-30T22:34:52Z)
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文参考訳（メタデータ） (2025-03-09T22:49:12Z)
What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文参考訳（メタデータ） (2025-03-06T17:59:29Z)
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文参考訳（メタデータ） (2025-03-04T07:04:55Z)
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文参考訳（メタデータ） (2024-11-20T17:54:41Z)
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文参考訳（メタデータ） (2024-07-24T17:15:58Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Step Differences in Instructional Video [34.551572600535565]
本論文では,HowTo100Mから一対の動画を含む視覚的インストラクション・チューニングデータを生成する手法を提案する。次に、ビデオ条件付き言語モデルをトレーニングして、複数の生のビデオに共同で理由付けします。本モデルでは,ビデオペアとランキングビデオの違いを識別し,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-04-24T21:49:59Z)
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文参考訳（メタデータ） (2024-02-22T18:55:08Z)
Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文参考訳（メタデータ） (2024-01-15T15:42:39Z)
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation [11.198172694893927]
SportsSloMoは、130万本以上のビデオクリップと100万フレームの高解像度(720p)のスローモーションスポーツビデオがYouTubeからクロールされたベンチマークである。ベンチマークでいくつかの最先端手法を再学習し、その結果、他のデータセットと比較して精度が低下していることを示す。我々は,人間の認識する先行性を考慮した2つの損失項を導入し,汎視的セグメンテーションと人間のキーポイント検出に補助的監督を加える。
論文参考訳（メタデータ） (2023-08-31T17:23:50Z)
Knowledge Enhanced Model for Live Video Comment Generation [40.762720398152766]
本稿では,ライブビデオコメントの発散と情報的特性に着想を得た知識強化生成モデルを提案する。本モデルは,事前学習型エンコーダデコーダフレームワークを採用し,外部知識を取り入れている。 MovieLCデータセットとコードがリリースされる。
論文参考訳（メタデータ） (2023-04-28T07:03:50Z)
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文参考訳（メタデータ） (2022-04-07T17:59:02Z)
Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文参考訳（メタデータ） (2020-07-21T22:20:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。