論文の概要: An In-depth Evaluation of GPT-4 in Sentence Simplification with
Error-based Human Assessment
- arxiv url: http://arxiv.org/abs/2403.04963v1
- Date: Fri, 8 Mar 2024 00:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:25:39.524990
- Title: An In-depth Evaluation of GPT-4 in Sentence Simplification with
Error-based Human Assessment
- Title(参考訳): 誤りに基づくヒューマンアセスメントによる文の簡易化におけるGPT-4の深い評価
- Authors: Xuanxin Wu and Yuki Arase
- Abstract要約: 我々は,GPT-4の単純化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
- 参考スコア(独自算出の注目度): 10.816677544269782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence simplification, which rewrites a sentence to be easier to read and
understand, is a promising technique to help people with various reading
difficulties. With the rise of advanced large language models (LLMs),
evaluating their performance in sentence simplification has become imperative.
Recent studies have used both automatic metrics and human evaluations to assess
the simplification abilities of LLMs. However, the suitability of existing
evaluation methodologies for LLMs remains in question. First, the suitability
of current automatic metrics on LLMs' simplification evaluation is still
uncertain. Second, current human evaluation approaches in sentence
simplification often fall into two extremes: they are either too superficial,
failing to offer a clear understanding of the models' performance, or overly
detailed, making the annotation process complex and prone to inconsistency,
which in turn affects the evaluation's reliability. To address these problems,
this study provides in-depth insights into LLMs' performance while ensuring the
reliability of the evaluation. We design an error-based human annotation
framework to assess the GPT-4's simplification capabilities. Results show that
GPT-4 generally generates fewer erroneous simplification outputs compared to
the current state-of-the-art. However, LLMs have their limitations, as seen in
GPT-4's struggles with lexical paraphrasing. Furthermore, we conduct
meta-evaluations on widely used automatic metrics using our human annotations.
We find that while these metrics are effective for significant quality
differences, they lack sufficient sensitivity to assess the overall
high-quality simplification by GPT-4.
- Abstract(参考訳): 文章の要約は、読みやすく理解しやすい文を書き直し、様々な読みの困難を抱えた人々を助ける有望な技術である。
高度大言語モデル (LLM) の台頭に伴い, 文の単純化による性能評価が重要となった。
最近の研究では、自動測定と人間評価の両方を用いて、llmの単純化能力を評価する。
しかし, 既存のLCM評価手法の有効性は疑問視されている。
第一に、LLMの簡易化評価における現在の自動測定値の適合性はまだ不明である。
第2に、文の単純化における現在の人間的評価アプローチは、表面的すぎるか、モデルのパフォーマンスを明確に理解できないか、あるいは過度に詳しく、アノテーションプロセスを複雑にし、不一貫性になりがちであり、その結果、評価の信頼性に影響を与えます。
これらの問題に対処するため,本研究では,評価の信頼性を確保しつつ,llmsの性能に関する深い知見を提供する。
我々は,GPT-4の簡易化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
しかし、LPMは、GPT-4の語彙パラフレージングとの闘いに見られるように、制限がある。
さらに,人間のアノテーションを用いて,広く使用されている自動メトリクスのメタ評価を行う。
これらの指標は, 高い品質差に有効であるが, GPT-4による全体的な高品質化を評価するには十分な感度が欠如していることが判明した。
関連論文リスト
- SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - Simplicity Level Estimate (SLE): A Learned Reference-Less Metric for
Sentence Simplification [8.479659578608233]
文単純化のための学習評価基準(SLE)を提案する。
SLEは単純さに重点を置いており、人間の判断と相関して既存の指標のほとんどを上回ります。
論文 参考訳(メタデータ) (2023-10-12T09:49:10Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Dancing Between Success and Failure: Edit-level Simplification
Evaluation using SALSA [21.147261039292026]
編集ベースのヒューマンアノテーションフレームワークであるSALSAを紹介する。
我々は、成功と失敗の全範囲をカバーする、言語的に基礎付けられた20の編集タイプを開発する。
LENS-SALSAは,文品質と単語品質を同時に予測するために訓練された,参照不要な自動単純化指標である。
論文 参考訳(メタデータ) (2023-05-23T18:30:49Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。