論文の概要: CoAScore: Chain-of-Aspects Prompting for NLG Evaluation
- arxiv url: http://arxiv.org/abs/2312.10355v1
- Date: Sat, 16 Dec 2023 06:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:04:25.836488
- Title: CoAScore: Chain-of-Aspects Prompting for NLG Evaluation
- Title(参考訳): CoAScore: NLG評価のための視点の連鎖
- Authors: Peiyuan Gong and Jiaxin Mao
- Abstract要約: 自然言語生成(NLG)の評価は、シングルアスペクトからマルチアスペクトパラダイムに移行した。
我々は,大規模言語モデル(LLM)を利用したCoAScoreと呼ばれるNLG評価指標を提案する。
実験結果から,個人的側面評価と比較して,CoAScoreは人的判断と高い相関性を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 15.040372431669093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, natural language generation (NLG) evaluation has shifted from a
single-aspect to a multi-aspect paradigm, allowing for a more accurate
assessment. Large language models (LLMs) achieve superior performance on
various NLG evaluation tasks. However, current work often employs the LLM to
independently evaluate different aspects, which largely ignores the rich
correlation between various aspects. To fill this research gap, in this work,
we propose an NLG evaluation metric called CoAScore. Powered by LLMs, the
CoAScore utilizes multi-aspect knowledge through a CoA
(\textbf{C}hain-\textbf{o}f-\textbf{A}spects) prompting framework when
assessing the quality of a certain aspect. Specifically, for a given aspect to
evaluate, we first prompt the LLM to generate a chain of aspects that are
relevant to the target aspect and could be useful for the evaluation. We then
collect evaluation scores for each generated aspect, and finally, leverage the
knowledge of these aspects to improve the evaluation of the target aspect. We
evaluate CoAScore across five NLG evaluation tasks (e.g., summarization, dialog
response generation, etc) and nine aspects (e.g., overall quality, relevance,
coherence, etc). Our experimental findings highlight that, in comparison to
individual aspect evaluation, CoAScore exhibits a higher correlation with human
judgments. This improvement significantly outperforms existing unsupervised
evaluation metrics, whether for assessing overall quality or other aspects. We
also conducted extensive ablation studies to validate the effectiveness of the
three stages within the CoAScore framework and conducted case studies to show
how the LLM performs in these stages. Our code and scripts are available.
- Abstract(参考訳): 近年,自然言語生成(NLG)の評価が単一アスペクトから多アスペクトパラダイムに移行し,より正確な評価が可能になった。
大規模言語モデル (LLM) は様々なNLG評価タスクにおいて優れた性能を発揮する。
しかし、現在の研究はしばしば異なる側面を独立に評価するためにLLMを使用し、様々な側面間の豊富な相関を無視している。
本研究では,この研究ギャップを埋めるために,CoAScoreと呼ばれるNLG評価指標を提案する。
LLMによって駆動されるCoAScoreは、特定のアスペクトの品質を評価する際に、CoA(\textbf{C}hain-\textbf{o}f-\textbf{A}spects)プロンプトフレームワークを介してマルチアスペクトの知識を利用する。
具体的には、特定のアスペクトを評価するために、まずllmに、ターゲットのアスペクトに関連するアスペクトの連鎖を生成して、評価に役立てるように促します。
そして、生成された各アスペクトの評価スコアを収集し、最後に、これらの側面の知識を活用して、対象アスペクトの評価を改善する。
我々は,5つのNLG評価タスク(要約,ダイアログ応答生成など)と9つの側面(全体的な品質,妥当性,一貫性など)でCoAScoreを評価する。
実験結果から,個人的側面評価と比較して,CoAScoreは人的判断と高い相関性を示すことが明らかとなった。
この改善は、全体的な品質やその他の側面を評価するために、既存の教師なし評価指標を著しく上回る。
また,CoAScoreフレームワークにおける3つのステージの有効性を検証するため,広範囲なアブレーション研究を行い,これらのステージにおけるLSMの効果を示すケーススタディを行った。
私たちのコードとスクリプトは利用可能です。
関連論文リスト
- From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文 参考訳(メタデータ) (2024-08-09T20:35:10Z) - Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:23:23Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - The Generative AI Paradox on Evaluation: What It Can Solve, It May Not
Evaluate [17.77014177096838]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。
質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文 参考訳(メタデータ) (2024-02-09T06:16:08Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented Instruction Tuning with Auxiliary Evaluation Aspects [32.50977115108103]
X-Evalは、エンドユーザーがカスタマイズした視覚的側面と見えない側面の両方でテキストを評価するための2段階のインストラクションチューニングフレームワークである。
X-Evalは2つの学習段階から構成されており、モデルの性能を向上させるバニラ命令チューニング段階と、微粒化評価面間の接続を利用してテキスト品質を評価する拡張命令チューニング段階である。
論文 参考訳(メタデータ) (2023-11-15T09:01:55Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。