論文の概要: GPTScore: Evaluate as You Desire
- arxiv url: http://arxiv.org/abs/2302.04166v1
- Date: Wed, 8 Feb 2023 16:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 15:33:44.895670
- Title: GPTScore: Evaluate as You Desire
- Title(参考訳): GPTScore: 期待通りの評価
- Authors: Jinlan Fu, See-Kiong Ng, Zhengbao Jiang, Pengfei Liu
- Abstract要約: 本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。
4つのテキスト生成タスク、22の評価側面、およびそれに対応する37のデータセットに関する実験結果から、GPTScoreは、自然言語命令だけでテキストに対して評価したいことを効果的に実現できることを示した。
- 参考スコア(独自算出の注目度): 40.111346987131974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Artificial Intelligence (AI) has enabled the development of
sophisticated models that are capable of producing high-caliber text, images,
and other outputs through the utilization of large pre-trained models.
Nevertheless, assessing the quality of the generation is an even more arduous
task than the generation itself, and this issue has not been given adequate
consideration recently. This paper proposes a novel evaluation framework,
GPTScore, which utilizes the emergent abilities (e.g., zero-shot instruction)
from generative pre-trained models to score generated texts. Experimental
results on four text generation tasks, 22 evaluation aspects, and corresponding
37 datasets demonstrate that this approach can effectively allow us to achieve
what one desires to evaluate for texts simply by natural language instructions.
This nature helps us overcome several long-standing challenges in text
evaluation--how to achieve customized, multi-faceted evaluation without the
need for annotated samples. We make our code publicly available at
https://github.com/jinlanfu/GPTScore.
- Abstract(参考訳): 生成人工知能(AI)は、大規模な事前訓練されたモデルを利用することで、高精細なテキスト、画像、その他の出力を生成できる洗練されたモデルの開発を可能にした。
それにもかかわらず、世代の品質を評価することは世代そのものよりもさらに厳しい課題であり、この問題は最近十分な検討がなされていない。
本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。
4つのテキスト生成タスク、22の評価アスペクト、および対応する37のデータセットに関する実験の結果から、このアプローチは自然言語命令だけでテキストの評価を効果的に達成できることを示している。
この性質は、テキスト評価における長年の課題を克服するのに役立ちます。注釈付きサンプルを必要とせず、カスタマイズされた多面的な評価を実現する方法です。
私たちはコードをhttps://github.com/jinlanfu/gptscoreで公開しています。
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - MOCHA: A Multi-Task Training Approach for Coherent Text Generation from
Cognitive Perspective [22.69509556890676]
本稿では,文章の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。
我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-10-26T11:55:41Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。