論文の概要: PPLqa: An Unsupervised Information-Theoretic Quality Metric for Comparing Generative Large Language Models
- arxiv url: http://arxiv.org/abs/2411.15320v1
- Date: Fri, 22 Nov 2024 19:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:18.754594
- Title: PPLqa: An Unsupervised Information-Theoretic Quality Metric for Comparing Generative Large Language Models
- Title(参考訳): PPLqa: 生成型大規模言語モデルの比較のための教師なし情報理論品質指標
- Authors: Gerald Friedland, Xin Huang, Yueying Cui, Vishaal Kapoor, Ashish Khetan, Sanjiv Das,
- Abstract要約: 生成型大規模言語モデル(LLM)の応答の質を測定するため,計算が容易で言語に依存しない情報理論の指標であるPPLqaを提案する。
この方法と測定基準により、ユーザが生成言語モデルに応答の質をランク付けし、与えられたタスクに最適なモデルを選択することができる。
- 参考スコア(独自算出の注目度): 9.027802326177135
- License:
- Abstract: We propose PPLqa, an easy to compute, language independent, information-theoretic metric to measure the quality of responses of generative Large Language Models (LLMs) in an unsupervised way, without requiring ground truth annotations or human supervision. The method and metric enables users to rank generative language models for quality of responses, so as to make a selection of the best model for a given task. Our single metric assesses LLMs with an approach that subsumes, but is not explicitly based on, coherence and fluency (quality of writing) and relevance and consistency (appropriateness of response) to the query. PPLqa performs as well as other related metrics, and works better with long-form Q\&A. Thus, PPLqa enables bypassing the lengthy annotation process required for ground truth evaluations, and it also correlates well with human and LLM rankings.
- Abstract(参考訳): 本研究では,PPLqaを提案する。PPLqaは,言語に依存しない情報理論の指標であり,生成型大規模言語モデル(LLM)の応答の質を,基礎的な真理アノテーションや人間の監督を必要とせず,教師なしで測定する。
この方法と測定基準により、ユーザが生成言語モデルに応答の質をランク付けし、与えられたタスクに最適なモデルを選択することができる。
我々の単一のメトリクスは、LCMを仮定するアプローチで評価するが、クエリに対する一貫性と一貫性(応答の適切性)、一貫性(書き込みの質)、一貫性(応答の妥当性)を明示的に基づかない。
PPLqaは他の関連するメトリクスと同様に機能し、長期のQ\&Aでうまく機能する。
したがって、PPLqaは、地上の真理評価に必要な長いアノテーションプロセスをバイパスすることができ、人間やLLMのランキングとよく相関する。
関連論文リスト
- Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。
LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。
本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-07T17:11:34Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Predicting Question-Answering Performance of Large Language Models
through Semantic Consistency [5.857193811761703]
本研究では,大規模言語モデルの質問応答のセマンティック一貫性を評価するタスクに対処する。
事実質問のための高品質なパラフレーズ付きベンチマークデータセットを作成し、そのデータセットをコミュニティにリリースする。
実際のQA参照レスパフォーマンス予測のためのフレームワークを構築し,評価する。
論文 参考訳(メタデータ) (2023-11-02T11:27:21Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。