論文の概要: Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization
- arxiv url: http://arxiv.org/abs/2310.08394v1
- Date: Thu, 12 Oct 2023 15:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 09:03:23.304940
- Title: Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization
- Title(参考訳): 指導追従のより良い評価に向けて:要約の事例研究
- Authors: Ondrej Skopek, Rahul Aralikatte, Sian Gooding, Victor Carbune
- Abstract要約: 本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
本稿では,LLMに基づく基準自由度評価手法を提案する。
- 参考スコア(独自算出の注目度): 9.686937153317809
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent advances, evaluating how well large language models (LLMs)
follow user instructions remains an open problem. While evaluation methods of
language models have seen a rise in prompt-based approaches, limited work on
the correctness of these methods has been conducted. In this work, we perform a
meta-evaluation of a variety of metrics to quantify how accurately they measure
the instruction-following abilities of LLMs. Our investigation is performed on
grounded query-based summarization by collecting a new short-form, real-world
dataset riSum, containing $300$ document-instruction pairs with $3$ answers
each. All $900$ answers are rated by $3$ human annotators. Using riSum, we
analyze agreement between evaluation methods and human judgment. Finally, we
propose new LLM-based reference-free evaluation methods that improve upon
established baselines and perform on-par with costly reference-based metrics
which require high-quality summaries.
- Abstract(参考訳): 最近の進歩にもかかわらず、大きな言語モデル(LLM)がいかにユーザ命令に従うかを評価することは未解決の問題である。
言語モデルの評価手法は、プロンプトベースアプローチが増加傾向にあるが、これらの手法の正確性に関する作業は限られている。
本研究では,LLMの指示追従能力の計測精度を定量化するために,様々な指標のメタ評価を行う。
私たちの調査は、接地型クエリベースの要約に基づいて行われ、300ドルのドキュメントインストラクションペアと3ドルの回答を含む、新しい短い形式の実世界のデータセットrisumを収集します。
900ドルの回答はすべて、人間の注釈によって評価される。
riSumを用いて評価方法と人的判断の一致を分析する。
最後に、確立された基準線を改良し、高品質な要約を必要とするコストの高い基準ベースのメトリクスでオンパーを実行するLLMベースの参照フリー評価手法を提案する。
関連論文リスト
- ReIFE: Re-evaluating Instruction-Following Evaluation [105.75525154888655]
本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。
評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
論文 参考訳(メタデータ) (2024-10-09T17:14:50Z) - Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。
本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-24T06:53:36Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - LLMEval: A Preliminary Study on How to Evaluate Large Language Models [47.12588320134504]
我々は,様々な基準を手動評価と自動評価を比較し,現場,クラウドソーシング,パブリックアノテータ,GPT-4を用いて評価方法を分析する。
計2,186人が参加し、243,337のマニュアルアノテーションと57,511の自動評価結果が作成された。
論文 参考訳(メタデータ) (2023-12-12T16:14:43Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。