論文の概要: GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2401.04092v2
- Date: Tue, 9 Jan 2024 21:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 11:48:19.418469
- Title: GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation
- Title(参考訳): gpt-4v(ision)はテキストから3d生成のための人間指向型評価器である
- Authors: Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas
Guibas, Dahua Lin, Gordon Wetzstein
- Abstract要約: 本稿では,テキスト・ツー・3次元生成モデルのための自動的,汎用的,人為的アライメント評価指標を提案する。
この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,評価プロンプトを生成する。
次に,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。
- 参考スコア(独自算出の注目度): 93.55550787058012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in text-to-3D generative methods, there is a notable
absence of reliable evaluation metrics. Existing metrics usually focus on a
single criterion each, such as how well the asset aligned with the input text.
These metrics lack the flexibility to generalize to different evaluation
criteria and might not align well with human preferences. Conducting user
preference studies is an alternative that offers both adaptability and
human-aligned results. User studies, however, can be very expensive to scale.
This paper presents an automatic, versatile, and human-aligned evaluation
metric for text-to-3D generative models. To this end, we first develop a prompt
generator using GPT-4V to generate evaluating prompts, which serve as input to
compare text-to-3D models. We further design a method instructing GPT-4V to
compare two 3D assets according to user-defined criteria. Finally, we use these
pairwise comparison results to assign these models Elo ratings. Experimental
results suggest our metric strongly align with human preference across
different evaluation criteria.
- Abstract(参考訳): テキストから3次元生成手法の最近の進歩にもかかわらず、信頼性の高い評価指標が欠けている。
既存のメトリクスは通常、アセットが入力テキストとどのように一致しているかなど、それぞれ1つの基準に集中します。
これらの指標には、異なる評価基準に一般化する柔軟性がなく、人間の好みとうまく一致しない可能性がある。
ユーザ嗜好研究は、適応性と人間に合わせた結果の両方を提供する代替手段である。
しかし、ユーザスタディはスケールするのに非常に高価である。
本稿では,テキストから3次元生成モデルに対する自動的,汎用的,人間指向の評価指標を提案する。
この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,テキストから3Dモデルを比較した。
さらに,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。
最後に、これらのペア比較結果を用いて、これらのモデルElo評価を割り当てる。
実験結果から,評価基準の異なる人の嗜好に強く一致することが示唆された。
関連論文リスト
- CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Multidimensional Evaluation for Text Style Transfer Using ChatGPT [14.799109368073548]
emphTextスタイル転送作業における多次元評価器としてのChatGPTの可能性について検討する。
本研究は,テキストスタイルの伝達評価において,文体強度,コンテンツ保存,流布の3次元において,その性能を検証した。
これらの予備的な結果は、スタイリングされたテキスト生成の多次元評価において、大きな言語モデルが果たす役割を初めて垣間見ることができると期待されている。
論文 参考訳(メタデータ) (2023-04-26T11:33:35Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。