論文の概要: Large Language Models Are Active Critics in NLG Evaluation
- arxiv url: http://arxiv.org/abs/2410.10724v1
- Date: Mon, 14 Oct 2024 17:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:05:09.737696
- Title: Large Language Models Are Active Critics in NLG Evaluation
- Title(参考訳): NLG評価における大規模言語モデルは積極的な批判である
- Authors: Shuying Xu, Junjie Hu, Ming Jiang,
- Abstract要約: 自然言語生成(NLG)システムを評価する新しい手法であるActive-Criticを紹介する。
このプロトコルにより、大きな言語モデル(LLM)が'アクティブな批評家'として機能できる。
実験により,本手法は現状評価法よりも人的判断との整合性が高いことが示された。
- 参考スコア(独自算出の注目度): 9.932334723464129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conventional paradigm of using large language models (LLMs) for evaluating natural language generation (NLG) systems typically relies on two key inputs: (1) a clear definition of the NLG task to be evaluated and (2) a list of pre-defined evaluation criteria. This process treats LLMs as ''passive critics,'' strictly following human-defined criteria for evaluation. However, as new NLG tasks emerge, the criteria for assessing text quality can vary greatly. Consequently, these rigid evaluation methods struggle to adapt to diverse NLG tasks without extensive prompt engineering customized for each specific task. To address this limitation, we introduce Active-Critic, a novel LLM-based NLG evaluation protocol that enables LLMs to function as ''active critics.'' Specifically, our protocol comprises two key stages. In the first stage, the LLM is instructed to infer the target NLG task and establish relevant evaluation criteria from the data. Building on this self-inferred information, the second stage dynamically optimizes the prompt to guide the LLM toward more human-aligned scoring decisions, while also generating detailed explanations to justify its evaluations. Experiments across four NLG evaluation tasks show that our approach achieves stronger alignment with human judgments than state-of-the-art evaluation methods. Our comprehensive analysis further highlights the effectiveness and explainability of Active-Critic with only a small amount of labeled data. We will share our code and data on GitHub.
- Abstract(参考訳): 自然言語生成(NLG)システムの評価に大規模言語モデル(LLM)を用いる従来のパラダイムは,(1)評価すべきNLGタスクの明確な定義と(2)事前定義された評価基準のリストという,2つの重要な入力に依存している。
このプロセスは、LLMを「受動的批評家」として扱うもので、人間による評価基準に厳格に従う。
しかし,新たなNLGタスクが出現すると,テキストの品質評価基準は大きく変化する。
その結果、これらの厳密な評価手法は、特定のタスクごとにカスタマイズされた広範なプロンプトエンジニアリングを伴わずに、多様なNLGタスクに適応するのに苦労する。
この制限に対処するため,我々は,LSMを「アクティブ批評家」として機能させる新しいLCG評価プロトコルであるActive-Criticを紹介した。
第1段階では、LSMは、対象のNLGタスクを推測し、データから関連する評価基準を確立するように指示される。
この自己推論情報に基づいて、第2段階は、LLMを人間と協調したスコアリング決定へ導くプロンプトを動的に最適化し、その評価を正当化するための詳細な説明を生成する。
4つのNLG評価課題にまたがる実験により,本手法は現状評価法よりも人的判断との整合性が高いことが示された。
包括的分析により,少量のラベル付きデータによるActive-Criticの有効性と説明性をさらに強調した。
コードとデータはGitHubで共有します。
関連論文リスト
- Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability [39.12792986841385]
本稿では,人間とGPT-4のアノテーションを用いた大規模NLG評価コーパスNLG-Evalを構築した。
また,NLG 評価専用の LLM を提案する。この LLM は,設計した多視点整合性検証と評価指向の選好アライメント手法を用いて訓練されている。
Themis は様々な NLG タスクに対して優れた評価性能を示し、同時に未確認タスクを一般化し、GPT-4 など他の評価モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-26T14:04:29Z) - TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [2.186726107112913]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - EvalLM: Interactive Evaluation of Large Language Model Prompts on
User-Defined Criteria [43.944632774725484]
本稿では,ユーザ定義基準に基づいて複数の出力を評価することで,プロンプトを反復的に精錬するインタラクティブシステムであるEvalLMを提案する。
自然言語の基準を記述することで、ユーザはシステムのLCMベースの評価器を使って、どのプロンプトがエキサイティングか、失敗かを概観することができる。
比較研究では、EvalLMは手動による評価と比較して、参加者がより多様な基準を策定し、アウトプットの2倍を検査し、59%のリビジョンで満足なプロンプトに達するのに役立った。
論文 参考訳(メタデータ) (2023-09-24T13:19:38Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。