論文の概要: Exploring Precision and Recall to assess the quality and diversity of
LLMs
- arxiv url: http://arxiv.org/abs/2402.10693v2
- Date: Wed, 28 Feb 2024 10:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:54:57.923859
- Title: Exploring Precision and Recall to assess the quality and diversity of
LLMs
- Title(参考訳): LLMの品質と多様性を評価するための精度とリコールの探索
- Authors: Florian Le Bronnec, Alexandre Verine, Benjamin Negrevergne, Yann
Chevaleyre, Alexandre Allauzen
- Abstract要約: 本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
- 参考スコア(独自算出の注目度): 86.33540332994781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel evaluation framework for Large Language Models
(LLMs) such as Llama-2 and Mistral, focusing on the adaptation of Precision and
Recall metrics from image generation to text generation. This approach allows
for a nuanced assessment of the quality and diversity of generated text without
the need for aligned corpora. By conducting a comprehensive evaluation of
state-of-the-art language models, the study reveals significant insights into
their performance on open-ended generation tasks, which are not adequately
captured by traditional benchmarks. The findings highlight a trade-off between
the quality and diversity of generated samples, particularly when models are
fine-tuned with human feedback. This work extends the toolkit for
distribution-based NLP evaluation, offering insights into the practical
capabilities and challenges faced by current LLMs in generating diverse and
high-quality text.
- Abstract(参考訳): 本稿では,Llama-2 や Mistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスを整列することなく、生成したテキストの品質と多様性を微妙に評価できる。
この研究は、最先端言語モデルの包括的な評価を行うことで、従来のベンチマークでは適切に捉えられていないオープンエンド生成タスクのパフォーマンスに関する重要な洞察を明らかにする。
この結果は、生成したサンプルの品質と多様性のトレードオフを浮き彫りにしている。
この研究は、分散ベースのNLP評価ツールキットを拡張し、多種多様な高品質のテキストを生成する上で、現在のLLMが直面する実践的能力と課題に関する洞察を提供する。
関連論文リスト
- CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [26.489063021538577]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models:
Challenges on Granularity and Specificity [47.59279298300943]
本稿では、実世界のゼロショット認識タスクにおいて、視覚言語モデル(VLM)を評価するための革新的なベンチマークを紹介する。
本研究では,画像ネットとMS-COCOデータセットを用いて,概念の粒度レベルでの認識におけるモデルの一貫性を評価する。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。