論文の概要: Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality
- arxiv url: http://arxiv.org/abs/2406.08845v4
- Date: Thu, 31 Oct 2024 08:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:31.807860
- Title: Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality
- Title(参考訳): テキスト・ビデオ・モデルのためのヒューマン・アセスメント・プロトコルの再考:信頼性、再現性、実用性の向上
- Authors: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang,
- Abstract要約: 本稿では,T2Vモデルのための包括的で標準化されたプロトコルであるText-to-Video Human Evaluation (T2VHE)プロトコルを紹介する。
このプロトコルには、明確に定義されたメトリクス、完全なアノテータトレーニング、効果的な動的評価モジュールが含まれている。
我々は、完全なプロトコルワークフロー、動的評価コンポーネントの詳細、アノテーションインターフェースコードを含む、T2VHEプロトコルのセットアップ全体をオープンソースにします。
- 参考スコア(独自算出の注目度): 58.87422943009375
- License:
- Abstract: Recent text-to-video (T2V) technology advancements, as demonstrated by models such as Gen2, Pika, and Sora, have significantly broadened its applicability and popularity. Despite these strides, evaluating these models poses substantial challenges. Primarily, due to the limitations inherent in automatic metrics, manual evaluation is often considered a superior method for assessing T2V generation. However, existing manual evaluation protocols face reproducibility, reliability, and practicality issues. To address these challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE) protocol, a comprehensive and standardized protocol for T2V models. The T2VHE protocol includes well-defined metrics, thorough annotator training, and an effective dynamic evaluation module. Experimental results demonstrate that this protocol not only ensures high-quality annotations but can also reduce evaluation costs by nearly 50\%. We will open-source the entire setup of the T2VHE protocol, including the complete protocol workflow, the dynamic evaluation component details, and the annotation interface code. This will help communities establish more sophisticated human assessment protocols.
- Abstract(参考訳): 最近のテキスト・ツー・ビデオ(T2V)技術の発展は、Gen2、Pika、Soraといったモデルによって示され、適用性と人気を著しく拡大している。
これらの努力にもかかわらず、これらのモデルを評価することは重大な課題となる。
主に、自動測定に固有の限界のため、手動評価はT2V生成を評価する上で優れた方法とみなされることが多い。
しかし、既存の手動評価プロトコルは再現性、信頼性、実用性の問題に直面している。
これらの課題に対処するために,本研究では,T2Vモデルの包括的で標準化されたプロトコルであるText-to-Video Human Evaluation (T2VHE)プロトコルを提案する。
T2VHEプロトコルには、明確に定義されたメトリクス、完全なアノテータトレーニング、効果的な動的評価モジュールが含まれている。
実験の結果,このプロトコルは高品質なアノテーションを保証するだけでなく,評価コストを50%近く削減できることがわかった。
我々は、完全なプロトコルワークフロー、動的評価コンポーネントの詳細、アノテーションインターフェースコードを含む、T2VHEプロトコルのセットアップ全体をオープンソースにします。
これにより、コミュニティはより高度なヒューマンアセスメントプロトコルを確立することができる。
関連論文リスト
- T2VEval: T2V-generated Videos Benchmark Dataset and Objective Evaluation Method [13.924105106722534]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T03:11:33Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment [15.11363628734519]
本稿では,T2Vモデルのアライメントにヒトのフィードバックを活用する新しい微調整手法LiFTを提案する。
我々は,報酬関数を効果的に学習するために,報酬モデルLiFT-Criticを訓練する。
最後に、学習した報酬関数を利用して、報酬重み付き確率を最大化し、T2Vモデルを整列する。
論文 参考訳(メタデータ) (2024-12-06T07:16:14Z) - Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols [52.40622903199512]
本稿では,多目的かつ部分的に観察可能なゲームとして,AI-Control Gamesを紹介した。
我々は、信頼できない言語モデルをプログラミングアシスタントとしてデプロイするためのプロトコルをモデル化、評価、合成するために、フォーマリズムを適用した。
論文 参考訳(メタデータ) (2024-09-12T12:30:07Z) - Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:51:22Z) - Measuring the Quality of Text-to-Video Model Outputs: Metrics and
Dataset [1.9685736810241874]
本稿は,最近使用されている5つのT2Vモデルから,1,000以上の生成されたビデオのデータセットを提示する。
また、ビデオ上での人間の品質評価も含むので、人間の評価を含むメトリクスの相対的な強みと弱みを比較することができます。
我々の結論は、T2V出力を生成するために使用するテキストプロンプトと自然性および意味マッチングが重要であるが、T2Vモデル出力を評価する際にこれらの微妙さを捉えるための単一の手段はないということである。
論文 参考訳(メタデータ) (2023-09-14T19:35:53Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - Evaluation of Test-Time Adaptation Under Computational Time Constraints [80.40939405129102]
テスト時間適応(TTA)メソッドは、テスト時にラベルのないデータを活用して、分散シフトに適応する。
現在の評価プロトコルは、この余分なコストの影響を見落とし、実際の適用性に影響を与える。
本稿では,TTA手法のより現実的な評価プロトコルを提案し,一定の速度のデータストリームからデータをオンライン形式で受信する。
論文 参考訳(メタデータ) (2023-04-10T18:01:47Z) - Toward Verifiable and Reproducible Human Evaluation for Text-to-Image
Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。
本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。
人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文 参考訳(メタデータ) (2023-04-04T14:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。