論文の概要: DHP Benchmark: Are LLMs Good NLG Evaluators?
- arxiv url: http://arxiv.org/abs/2408.13704v2
- Date: Tue, 25 Feb 2025 01:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:59.665421
- Title: DHP Benchmark: Are LLMs Good NLG Evaluators?
- Title(参考訳): DHPベンチマーク: LLMは優れたNLG評価ツールか?
- Authors: Yicheng Wang, Jiayi Yuan, Yu-Neng Chuang, Zhuoer Wang, Yingchi Liu, Mark Cusick, Param Kulkarni, Zhengping Ji, Yasser Ibrahim, Xia Hu,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語生成(NLG)タスクにおいて、ますます評価役として機能している。
本稿では,LLMの定量的識別スコアを提供する階層摂動(DHP)ベンチマークフレームワークを提案する。
このベンチマークでは,要約,ストーリコンプリート,質問回答,翻訳という4つのNLGタスクを対象として,6つの評価データセットを再確立した。
- 参考スコア(独自算出の注目度): 42.16315294351651
- License:
- Abstract: Large Language Models (LLMs) are increasingly serving as evaluators in Natural Language Generation (NLG) tasks; this is often referred to as ``LLM-as-a-judge'' paradigm. However, the capabilities of LLMs in evaluating NLG quality remain underexplored. Current studies depend on human assessments and simple metrics that fail to capture the discernment of LLMs across diverse NLG tasks. To address this gap, we propose the Discernment of Hierarchical Perturbation (DHP) benchmarking framework, which provides quantitative discernment scores for LLMs. This framework leverages hierarchically perturbed text data and statistical tests to systematically measure the NLG evaluation capabilities of LLMs. We re-established six evaluation datasets for this benchmark, covering four NLG tasks: Summarization, Story Completion, Question Answering, and Translation. Our comprehensive benchmarking of five major LLM families provides critical insight into their strengths and limitations as NLG evaluators. Our dataset is available at https://huggingface.co/datasets/YCWANGVINCE/DHP_Benchmark.
- Abstract(参考訳): 大規模言語モデル (LLM) は、自然言語生成 (NLG) タスクにおける評価者としての役割を担っているが、これはしばしば `LLM-as-a-judge' パラダイムと呼ばれる。
しかし,NLGの品質評価におけるLCMの能力は未解明のままである。
現在の研究は、様々なNLGタスクにおけるLCMの識別を捉えるのに失敗する人間の評価と単純なメトリクスに依存している。
このギャップに対処するために,LLMの定量的識別スコアを提供する階層摂動(DHP)ベンチマークフレームワークを提案する。
このフレームワークは、階層的に摂動されたテキストデータと統計的テストを利用して、LCMのNLG評価能力を体系的に測定する。
このベンチマークでは,要約,ストーリコンプリート,質問回答,翻訳という4つのNLGタスクを対象として,6つの評価データセットを再確立した。
5つのLLMファミリーの総合的なベンチマークは、NLG評価者としての長所と短所について重要な洞察を与えてくれる。
私たちのデータセットはhttps://huggingface.co/datasets/YCWANGVINCE/DHP_Benchmarkで公開されています。
関連論文リスト
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - METAL: Towards Multilingual Meta-Evaluation [12.852595634767901]
本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。
要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。
GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
論文 参考訳(メタデータ) (2024-04-02T06:14:54Z) - LLM-based NLG Evaluation: Current Status and Challenges [41.69249290537395]
自然言語生成(NLG)を評価することは、人工知能において不可欠だが難しい問題である。
大規模言語モデル (LLM) は近年, NLG 評価において大きな可能性を示している。
LLMに基づく各種自動評価手法が提案されている。
論文 参考訳(メタデータ) (2024-02-02T13:06:35Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。