Fugu-MT 論文翻訳(概要): Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization

論文の概要: Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization

arxiv url: http://arxiv.org/abs/2310.08394v2
Date: Fri, 20 Oct 2023 10:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 02:25:57.575917
Title: Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization
Title（参考訳）: 指導追従のより良い評価に向けて:要約の事例研究
Authors: Ondrej Skopek, Rahul Aralikatte, Sian Gooding, Victor Carbune
Abstract要約: 本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。 riSumを用いて評価方法と人的判断の一致を分析した。
参考スコア（独自算出の注目度）: 9.686937153317809
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite recent advances, evaluating how well large language models (LLMs) follow user instructions remains an open problem. While evaluation methods of language models have seen a rise in prompt-based approaches, limited work on the correctness of these methods has been conducted. In this work, we perform a meta-evaluation of a variety of metrics to quantify how accurately they measure the instruction-following abilities of LLMs. Our investigation is performed on grounded query-based summarization by collecting a new short-form, real-world dataset riSum, containing 300 document-instruction pairs with 3 answers each. All 900 answers are rated by 3 human annotators. Using riSum, we analyze the agreement between evaluation methods and human judgment. Finally, we propose new LLM-based reference-free evaluation methods that improve upon established baselines and perform on par with costly reference-based metrics that require high-quality summaries.
Abstract（参考訳）: 最近の進歩にもかかわらず、大きな言語モデル(LLM)がいかにユーザ命令に従うかを評価することは未解決の問題である。言語モデルの評価手法は、プロンプトベースアプローチが増加傾向にあるが、これらの手法の正確性に関する作業は限られている。本研究では,LLMの指示追従能力の計測精度を定量化するために,様々な指標のメタ評価を行う。本研究は,3つの回答を持つ300の文書命令対を含む,新しい短文実世界のデータセットriSumを収集し,検索に基づく要約を行った。 900の回答は3人のアノテータによって評価される。 riSumを用いて評価方法と人的判断の一致を分析した。最後に,確立された基準線を改良し,高品質な要約を必要とするコストの高い基準ベースの指標と同等に動作するLCMベースの参照フリー評価手法を提案する。

関連論文リスト

Analysis of instruction-based LLMs' capabilities to score and judge text-input problems in an academic setting [0.7699714865575188]
LLM(Large Language Model)は、LLM-as-a-JudgeやLLMの微調整といった手法によって研究される評価器として機能する。本稿では,3つのモデルを持つ高校生のコンピュータ科学に関する110の回答をカスタムデータセットで検証した5つの評価システムを提案する。平均絶対偏差 (0.945) と最低根平均正方偏差 (1.214) を人的評価と比較すると, 基準支援評価は見識的, 完全評価とともに公正スコアを提供する。
論文参考訳（メタデータ） (2025-09-25T10:26:23Z)
Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。 182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文参考訳（メタデータ） (2025-08-14T16:18:37Z)
Agree to Disagree? A Meta-Evaluation of LLM Misgendering [84.77694174309183]
我々は,誤認識に対する確率および生成に基づく評価手法の体系的メタ評価を行う。 3つのファミリから6つのモデルのスイートを自動的に評価することにより、これらのメソッドがインスタンス、データセット、モデルレベルで互いに一致しないことが分かる。また、誤認識行動は複雑であり、代名詞をはるかに超えており、人間の評価と本質的な相違が示唆されていることも示している。
論文参考訳（メタデータ） (2025-04-23T19:52:02Z)
ReIFE: Re-evaluating Instruction-Following Evaluation [105.75525154888655]
本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
論文参考訳（メタデータ） (2024-10-09T17:14:50Z)
A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文参考訳（メタデータ） (2024-06-30T16:12:37Z)
Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-24T06:53:36Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文参考訳（メタデータ） (2024-02-16T15:48:33Z)
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文参考訳（メタデータ） (2024-01-30T14:52:50Z)
LLMEval: A Preliminary Study on How to Evaluate Large Language Models [47.12588320134504]
我々は,様々な基準を手動評価と自動評価を比較し,現場,クラウドソーシング,パブリックアノテータ,GPT-4を用いて評価方法を分析する。計2,186人が参加し、243,337のマニュアルアノテーションと57,511の自動評価結果が作成された。
論文参考訳（メタデータ） (2023-12-12T16:14:43Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (2023-07-13T16:16:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。