論文の概要: Benchmarking LLMs on the Semantic Overlap Summarization Task
- arxiv url: http://arxiv.org/abs/2402.17008v1
- Date: Mon, 26 Feb 2024 20:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:44:23.389825
- Title: Benchmarking LLMs on the Semantic Overlap Summarization Task
- Title(参考訳): 意味的オーバーラップ要約課題におけるLCMのベンチマーク
- Authors: John Salvador, Naman Bansal, Mousumi Akter, Souvika Sarkar, Anupam
Das, and Shubhra Kanti Karmaker ("Santu")
- Abstract要約: 本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
- 参考スコア(独自算出の注目度): 9.656095701778975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic Overlap Summarization (SOS) is a constrained multi-document
summarization task, where the constraint is to capture the common/overlapping
information between two alternative narratives. While recent advancements in
Large Language Models (LLMs) have achieved superior performance in numerous
summarization tasks, a benchmarking study of the SOS task using LLMs is yet to
be performed. As LLMs' responses are sensitive to slight variations in prompt
design, a major challenge in conducting such a benchmarking study is to
systematically explore a variety of prompts before drawing a reliable
conclusion. Fortunately, very recently, the TELeR taxonomy has been proposed
which can be used to design and explore various prompts for LLMs. Using this
TELeR taxonomy and 15 popular LLMs, this paper comprehensively evaluates LLMs
on the SOS Task, assessing their ability to summarize overlapping information
from multiple alternative narratives. For evaluation, we report
well-established metrics like ROUGE, BERTscore, and SEM-F1$ on two different
datasets of alternative narratives. We conclude the paper by analyzing the
strengths and limitations of various LLMs in terms of their capabilities in
capturing overlapping information The code and datasets used to conduct this
study are available at https://anonymous.4open.science/r/llm_eval-E16D.
- Abstract(参考訳): 意味重複要約(semantic overlap summarization、sos)は、制約付きマルチドキュメント要約タスクであり、制約は2つの異なる物語間の共通/重複情報をキャプチャすることである。
近年のLarge Language Models (LLM) の進歩は, 多数の要約タスクにおいて優れた性能を発揮しているが, LLMを用いたSOSタスクのベンチマーク研究はまだ行われていない。
LLMの応答はプロンプト設計のわずかなバリエーションに敏感であるため、そのようなベンチマーク研究を行う上で大きな課題は、信頼できる結論を出す前に様々なプロンプトを体系的に探索することである。
幸運にも、最近になってTELeR分類法が提案され、LLMの様々なプロンプトの設計と探索に利用できる。
このTELeR分類法と15のLLMを用いて,SOSタスク上のLLMを総合的に評価し,複数の代替物語から重なる情報を要約する能力を評価する。
評価のために, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語データセット上で報告する。
この記事は、様々なllmの強みと限界を分析して、この研究に使用されたコードとデータセットが重複する情報をキャプチャする能力について、https://anonymous.4open.science/r/llm_eval-e16dで利用可能である。
関連論文リスト
- Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Large Language Models for Software Engineering: A Systematic Literature Review [34.12458948051519]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)を含む多くの領域に大きな影響を与えている。
我々は、2017年1月から2024年1月までの395件の研究論文を選定、分析し、4つの重要な研究質問(RQ)に答える。
これらのRQに対する回答から、現在の最先端とトレンド、既存の研究のギャップの特定、今後の研究に向けた有望な領域のフラグ付けなどについて論じる。
論文 参考訳(メタデータ) (2023-08-21T10:37:49Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。