論文の概要: A Closer Look into Automatic Evaluation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2310.05657v1
- Date: Mon, 9 Oct 2023 12:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 05:12:24.846137
- Title: A Closer Look into Automatic Evaluation Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた自動評価についての一考察
- Authors: Cheng-Han Chiang and Hung-yi Lee
- Abstract要約: 評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
- 参考スコア(独自算出の注目度): 75.49360351036773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using large language models (LLMs) to evaluate text quality has recently
gained popularity. Some prior works explore the idea of using LLMs for
evaluation, while they differ in some details of the evaluation process. In
this paper, we analyze LLM evaluation (Chiang and Lee, 2023) and G-Eval (Liu et
al., 2023), and we discuss how those details in the evaluation process change
how well the ratings given by LLMs correlate with human ratings. We find that
the auto Chain-of-Thought (CoT) used in G-Eval does not always make G-Eval more
aligned with human ratings. We also show that forcing the LLM to output only a
numeric rating, as in G-Eval, is suboptimal. Last, we reveal that asking the
LLM to explain its own ratings consistently improves the correlation between
the ChatGPT and human ratings and pushes state-of-the-art (SoTA) correlations
on two meta-evaluation datasets.
- Abstract(参考訳): テキストの品質を評価するために大きな言語モデル(LLM)が最近人気を集めている。
いくつかの先行研究ではLCMを評価に使用するという考え方が検討されているが、評価プロセスの詳細は異なっている。
本稿では,LLM評価 (Chiang and Lee, 2023) とG-Eval (Liu et al., 2023) を分析し,評価プロセスにおけるそれらの詳細が,LLMが与える評価と人的評価との相関性について検討する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように数値評価のみを出力させることは、最適以下であることを示す。
最後に、LLMに自身の評価を説明するよう求めることは、ChatGPTと人間の評価の相関性を一貫して改善し、2つのメタ評価データセットに最先端(SoTA)相関をプッシュすることを明らかにする。
関連論文リスト
- GLIDER: Grading LLM Interactions and Decisions using Explainable Ranking [0.9614204956530676]
我々は,任意のユーザ定義基準に基づいて任意のテキスト入力および関連するコンテキストをスコアできる,強力な3B評価用LLMであるGLIDERを紹介する。
GLIDERは、FLASK上のGPT-4oよりもピアソンの相関が高く、事前評価モデルよりも大幅に優れていた。
きめ細かいスコア付け、多言語推論、強調表示をサポートし、685のドメインと183の基準でトレーニングされた。
論文 参考訳(メタデータ) (2024-12-18T18:41:12Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - METAL: Towards Multilingual Meta-Evaluation [12.852595634767901]
本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。
要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。
GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
論文 参考訳(メタデータ) (2024-04-02T06:14:54Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - LLMEval: A Preliminary Study on How to Evaluate Large Language Models [47.12588320134504]
我々は,様々な基準を手動評価と自動評価を比較し,現場,クラウドソーシング,パブリックアノテータ,GPT-4を用いて評価方法を分析する。
計2,186人が参加し、243,337のマニュアルアノテーションと57,511の自動評価結果が作成された。
論文 参考訳(メタデータ) (2023-12-12T16:14:43Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。