Fugu-MT 論文翻訳(概要): Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization

論文の概要: Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization

arxiv url: http://arxiv.org/abs/2311.09184v2
Date: Fri, 12 Jul 2024 17:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 05:46:55.493894
Title: Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization
Title（参考訳）: 命令制御可能な要約のための大規模言語モデルのベンチマーク生成と評価能力
Authors: Yixin Liu, Alexander R. Fabbri, Jiawen Chen, Yilun Zhao, Simeng Han, Shafiq Joty, Pengfei Liu, Dragomir Radev, Chien-Sheng Wu, Arman Cohan,
Abstract要約: 命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
参考スコア（独自算出の注目度）: 132.25202059478065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) can already achieve strong performance on standard generic summarization benchmarks, their performance on more complex summarization task settings is less studied. Therefore, we benchmark LLMs on instruction controllable text summarization, where the model input consists of both a source article and a natural language requirement for desired summary characteristics. To this end, we curate an evaluation-only dataset for this task setting and conduct human evaluations of five LLM-based systems to assess their instruction-following capabilities in controllable summarization. We then benchmark LLM-based automatic evaluation for this task with 4 different evaluation protocols and 11 LLMs, resulting in 40 evaluation methods. Our study reveals that instruction controllable text summarization remains a challenging task for LLMs, since (1) all LLMs evaluated still make factual and other types of errors in their summaries; (2) no LLM-based evaluation methods can achieve a strong alignment with human annotators when judging the quality of candidate summaries; (3) different LLMs show large performance gaps in summary generation and evaluation capabilities. We make our collected benchmark InstruSum publicly available to facilitate future research in this direction.
Abstract（参考訳）: 大規模言語モデル(LLM)は、標準の総和化ベンチマークでは高い性能を達成することができるが、より複雑な総和化タスク設定では、その性能は研究されていない。そこで本研究では,命令制御可能なテキスト要約に対してLCMをベンチマークし,モデル入力が所望の要約特性に対して,ソース記事と自然言語要求の両方から成り立っていることを示す。そこで我々は,このタスク設定のための評価専用データセットをキュレートし,LLMに基づく5つのシステムの人間による評価を行い,制御可能な要約における命令追従能力を評価する。次に、4つの異なる評価プロトコルと11個のLCMを用いて、このタスクの自動評価をベンチマークし、40個の評価方法を得た。本研究は,(1) 評価された全てのLCMは,その要約において事実的および他の種類の誤りを犯しているため,命令制御可能なテキスト要約は依然として困難な課題であり,(2) 候補要約の質を判断する上で,LLMに基づく評価手法が人間アノテータと強い整合性を達成できないこと,(3) 異なるLCMが要約生成と評価能力において大きなパフォーマンスギャップを示すこと,などを明らかにする。収集したベンチマークであるInstruSumを公開して、今後の研究を促進する。

関連論文リスト

IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
ReIFE: Re-evaluating Instruction-Following Evaluation [105.75525154888655]
本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
論文参考訳（メタデータ） (2024-10-09T17:14:50Z)
Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-24T06:53:36Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文参考訳（メタデータ） (2024-04-18T15:45:27Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文参考訳（メタデータ） (2023-09-18T08:13:01Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。