Fugu-MT 論文翻訳(概要): Exploring Precision and Recall to assess the quality and diversity of LLMs

論文の概要: Exploring Precision and Recall to assess the quality and diversity of LLMs

arxiv url: http://arxiv.org/abs/2402.10693v2
Date: Wed, 28 Feb 2024 10:12:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 17:54:57.923859
Title: Exploring Precision and Recall to assess the quality and diversity of LLMs
Title（参考訳）: LLMの品質と多様性を評価するための精度とリコールの探索
Authors: Florian Le Bronnec, Alexandre Verine, Benjamin Negrevergne, Yann Chevaleyre, Alexandre Allauzen
Abstract要約: 本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
参考スコア（独自算出の注目度）: 86.33540332994781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel evaluation framework for Large Language Models (LLMs) such as Llama-2 and Mistral, focusing on the adaptation of Precision and Recall metrics from image generation to text generation. This approach allows for a nuanced assessment of the quality and diversity of generated text without the need for aligned corpora. By conducting a comprehensive evaluation of state-of-the-art language models, the study reveals significant insights into their performance on open-ended generation tasks, which are not adequately captured by traditional benchmarks. The findings highlight a trade-off between the quality and diversity of generated samples, particularly when models are fine-tuned with human feedback. This work extends the toolkit for distribution-based NLP evaluation, offering insights into the practical capabilities and challenges faced by current LLMs in generating diverse and high-quality text.
Abstract（参考訳）: 本稿では,Llama-2 や Mistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスを整列することなく、生成したテキストの品質と多様性を微妙に評価できる。この研究は、最先端言語モデルの包括的な評価を行うことで、従来のベンチマークでは適切に捉えられていないオープンエンド生成タスクのパフォーマンスに関する重要な洞察を明らかにする。この結果は、生成したサンプルの品質と多様性のトレードオフを浮き彫りにしている。この研究は、分散ベースのNLP評価ツールキットを拡張し、多種多様な高品質のテキストを生成する上で、現在のLLMが直面する実践的能力と課題に関する洞察を提供する。

関連論文リスト

Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics [69.2321983942375]
本研究では,n-gram-based metricであるBLEUと,文字-based metricであるChrF++を比較して,EMRL設定におけるMT評価を行う。本研究は,3つのELRL(Magahi,Bhojpuri,Chhattisgarhi)にまたがる幻覚,反復,原文複写,ダイアクリティック(textitmatra)の変化など,各指標が翻訳物にどう反応するかを検討する。最近の研究はChrF++にのみ依存することが多いが、BLEUは絶対スコアが低いにもかかわらず、解釈可能性を改善するための補完的な語彙精度の洞察を提供する。
論文参考訳（メタデータ） (2026-02-19T14:56:42Z)
MTQ-Eval: Multilingual Text Quality Evaluation for Language Models [4.239775815863115]
MTQ-Evalは多言語テキスト品質評価のための新しいフレームワークである。高品質テキストと低品質テキストの両方の例から学び、内部表現を調整する。 115言語にわたる包括的評価は,提案モデルの性能向上を示す。
論文参考訳（メタデータ） (2025-11-12T14:42:23Z)
Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文参考訳（メタデータ） (2025-10-20T09:56:43Z)
WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文参考訳（メタデータ） (2025-03-07T08:56:20Z)
Movie2Story: A framework for understanding videos and telling stories in the form of novel text [0.0]
補助情報に富んだシナリオにおけるテキスト生成能力を評価するための新しいベンチマークを提案する。本研究は,高精度な補助情報の提供を確実にするための,革新的な自動データセット生成手法を提案する。本実験により, 提案した評価指標に基づいて, 現在のMLLM(Multi-modal Large Language Models)が準最適に動作していることが判明した。
論文参考訳（メタデータ） (2024-12-19T15:44:04Z)
Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework [0.1979158763744267]
オープンエンドテキスト生成は自然言語処理において顕著な課題となっている。復号法は、いくつかの指標で優れ、他の指標では性能が劣ることが多い。本稿では,この多基準フレームワークにおける新たなランキング戦略を提案する。
論文参考訳（メタデータ） (2024-10-24T11:32:01Z)
PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文参考訳（メタデータ） (2024-09-04T11:19:17Z)
Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文参考訳（メタデータ） (2024-07-04T16:41:08Z)
Zero-shot LLM-guided Counterfactual Generation: A Case Study on NLP Model Evaluation [15.254775341371364]
ゼロショット対実生成に大規模言語モデルを活用する可能性について検討する。我々は,この生成を容易にするための構造化パイプラインを提案し,近年のLLMにおける命令追従とテキスト理解の能力を効果的に活用できるという仮説を立てた。
論文参考訳（メタデータ） (2024-05-08T03:57:45Z)
Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文参考訳（メタデータ） (2024-02-27T14:16:19Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文参考訳（メタデータ） (2023-11-16T10:43:26Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
Automatic Construction of Evaluation Suites for Natural Language Generation Datasets [17.13484629172643]
我々は、制御された摂動を生成し、テキストからスカラー、テキストからテキストへ、あるいはデータからテキストへ設定したサブセットを識別するフレームワークを開発する。 80個のチャレンジセットからなる評価スイートを提案し、現在の世代モデルの限界に光を当てることを可能にした分析の種類を実証する。
論文参考訳（メタデータ） (2021-06-16T18:20:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。