Fugu-MT 論文翻訳(概要): Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

論文の概要: Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

arxiv url: http://arxiv.org/abs/2406.08845v3
Date: Thu, 17 Oct 2024 12:11:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.570024
Title: Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality
Title（参考訳）: テキスト・ビデオ・モデルのためのヒューマン・アセスメント・プロトコルの再考:信頼性、再現性、実用性の向上
Authors: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang,
Abstract要約: 本稿では,T2Vモデルのための包括的で標準化されたプロトコルであるText-to-Video Human Evaluation (T2VHE)プロトコルを紹介する。このプロトコルには、明確に定義されたメトリクス、完全なアノテータトレーニング、効果的な動的評価モジュールが含まれている。我々は、完全なプロトコルワークフロー、動的評価コンポーネントの詳細、アノテーションインターフェースコードを含む、T2VHEプロトコルのセットアップ全体をオープンソースにします。
参考スコア（独自算出の注目度）: 58.87422943009375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent text-to-video (T2V) technology advancements, as demonstrated by models such as Gen2, Pika, and Sora, have significantly broadened its applicability and popularity. Despite these strides, evaluating these models poses substantial challenges. Primarily, due to the limitations inherent in automatic metrics, manual evaluation is often considered a superior method for assessing T2V generation. However, existing manual evaluation protocols face reproducibility, reliability, and practicality issues. To address these challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE) protocol, a comprehensive and standardized protocol for T2V models. The T2VHE protocol includes well-defined metrics, thorough annotator training, and an effective dynamic evaluation module. Experimental results demonstrate that this protocol not only ensures high-quality annotations but can also reduce evaluation costs by nearly 50\%. We will open-source the entire setup of the T2VHE protocol, including the complete protocol workflow, the dynamic evaluation component details, and the annotation interface code. This will help communities establish more sophisticated human assessment protocols.
Abstract（参考訳）: 最近のテキスト・ツー・ビデオ(T2V)技術の発展は、Gen2、Pika、Soraといったモデルによって示され、適用性と人気を著しく拡大している。これらの努力にもかかわらず、これらのモデルを評価することは重大な課題となる。主に、自動測定に固有の限界のため、手動評価はT2V生成を評価する上で優れた方法とみなされることが多い。しかし、既存の手動評価プロトコルは再現性、信頼性、実用性の問題に直面している。これらの課題に対処するために,本研究では,T2Vモデルの包括的で標準化されたプロトコルであるText-to-Video Human Evaluation (T2VHE)プロトコルを提案する。 T2VHEプロトコルには、明確に定義されたメトリクス、完全なアノテータトレーニング、効果的な動的評価モジュールが含まれている。実験の結果,このプロトコルは高品質なアノテーションを保証するだけでなく,評価コストを50%近く削減できることがわかった。我々は、完全なプロトコルワークフロー、動的評価コンポーネントの詳細、アノテーションインターフェースコードを含む、T2VHEプロトコルのセットアップ全体をオープンソースにします。これにより、コミュニティはより高度なヒューマンアセスメントプロトコルを確立することができる。

関連論文リスト

Minos: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text [51.149562188883486]
我々は,人間とGPTの両方による評価データを組み合わせた大規模マルチモーダル評価データセットであるMinos-Corpusを紹介する。このコーパスに基づいて,データ選択とバランス,混合SFTトレーニング手法を提案し,DPOをミノの開発に適用する。
論文参考訳（メタデータ） (2025-06-03T06:17:16Z)
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
Bidirectional Prototype-Reward co-Evolution for Test-Time Adaptation of Vision-Language Models [38.63571023556356]
テスト時適応(TTA)は,分散シフトに直面した場合の視覚言語モデル(VLM)の性能維持に不可欠である。 BPRE(Underline Bidirectional Prototype-Reward co-Evolution)を提案する。 BPREは、機能品質評価とプロトタイプの進化を相乗的なフィードバックループを通じて統合する。我々のモデルは、他のSOTA法と比較して一貫して優れた性能を達成し、VLMの一般化能力を向上させる。
論文参考訳（メタデータ） (2025-03-12T13:40:33Z)
T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.742383920787413]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。 T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-15T03:11:33Z)
EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-24T04:08:25Z)
LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment [15.11363628734519]
本稿では,T2Vモデルアライメントにヒトのフィードバックを利用するLiFTを提案する。我々はまず,約10kの人間のアノテーションからなるヒューマンレーティングHRAを構築し,それぞれがスコアとそれに対応する論理を含む。そこで我々は,報酬関数を効果的に学習するために,報酬モデルLiFT-Criticを訓練する。最後に、学習した報酬関数を利用して、報酬重み付き確率を最大化し、T2Vモデルを整列する。
論文参考訳（メタデータ） (2024-12-06T07:16:14Z)
Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols [52.40622903199512]
本稿では,多目的かつ部分的に観察可能なゲームとして,AI-Control Gamesを紹介した。我々は、信頼できない言語モデルをプログラミングアシスタントとしてデプロイするためのプロトコルをモデル化、評価、合成するために、フォーマリズムを適用した。
論文参考訳（メタデータ） (2024-09-12T12:30:07Z)
Rethinking HTG Evaluation: Bridging Generation and Recognition [7.398476020996681]
我々は、HTG評価に適した3つの測度、textHTG_textstyle $, $ textHTG_textOOV $を紹介します。このメトリクスは、手書き文字認識と文字識別モデルの認識誤り/精度に依存している。以上の結果から,我々のメトリクスは情報に富み,HTGの標準化された評価プロトコルの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-09-04T13:15:10Z)
Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文参考訳（メタデータ） (2024-07-01T08:51:22Z)
Measuring the Quality of Text-to-Video Model Outputs: Metrics and Dataset [1.9685736810241874]
本稿は,最近使用されている5つのT2Vモデルから,1,000以上の生成されたビデオのデータセットを提示する。また、ビデオ上での人間の品質評価も含むので、人間の評価を含むメトリクスの相対的な強みと弱みを比較することができます。我々の結論は、T2V出力を生成するために使用するテキストプロンプトと自然性および意味マッチングが重要であるが、T2Vモデル出力を評価する際にこれらの微妙さを捉えるための単一の手段はないということである。
論文参考訳（メタデータ） (2023-09-14T19:35:53Z)
Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文参考訳（メタデータ） (2023-05-24T16:42:17Z)
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。 FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文参考訳（メタデータ） (2023-05-23T17:06:00Z)
Evaluation of Test-Time Adaptation Under Computational Time Constraints [80.40939405129102]
テスト時間適応(TTA)メソッドは、テスト時にラベルのないデータを活用して、分散シフトに適応する。現在の評価プロトコルは、この余分なコストの影響を見落とし、実際の適用性に影響を与える。本稿では,TTA手法のより現実的な評価プロトコルを提案し,一定の速度のデータストリームからデータをオンライン形式で受信する。
論文参考訳（メタデータ） (2023-04-10T18:01:47Z)
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文参考訳（メタデータ） (2023-04-04T14:14:16Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。