論文の概要: LFOSum: Summarizing Long-form Opinions with Large Language Models
- arxiv url: http://arxiv.org/abs/2410.13037v1
- Date: Wed, 16 Oct 2024 20:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:44.381044
- Title: LFOSum: Summarizing Long-form Opinions with Large Language Models
- Title(参考訳): LFOSum: 大規模言語モデルによるロングフォームオピニオンの要約
- Authors: Mir Tafseer Nayeem, Davood Rafiei,
- Abstract要約: 本稿では,(1)長文ユーザレビューの新しいデータセット,(1)1000以上のレビューを含むエンティティ,(2)長期入力にスケールする2つのトレーニングフリーLCMベースの要約アプローチ,(3)自動評価指標を紹介する。
ユーザレビューのデータセットは、ドメインの専門家による詳細な、偏見のない批判的な要約と組み合わせられ、評価の基準として役立ちます。
我々の評価では、LLMは長文要約における感情と形式順守のバランスをとる上で依然として課題に直面しているが、オープンソースモデルでは、関連する情報が集中的に検索される場合のギャップを狭めることができる。
- 参考スコア(独自算出の注目度): 7.839083566878183
- License:
- Abstract: Online reviews play a pivotal role in influencing consumer decisions across various domains, from purchasing products to selecting hotels or restaurants. However, the sheer volume of reviews -- often containing repetitive or irrelevant content -- leads to information overload, making it challenging for users to extract meaningful insights. Traditional opinion summarization models face challenges in handling long inputs and large volumes of reviews, while newer Large Language Model (LLM) approaches often fail to generate accurate and faithful summaries. To address those challenges, this paper introduces (1) a new dataset of long-form user reviews, each entity comprising over a thousand reviews, (2) two training-free LLM-based summarization approaches that scale to long inputs, and (3) automatic evaluation metrics. Our dataset of user reviews is paired with in-depth and unbiased critical summaries by domain experts, serving as a reference for evaluation. Additionally, our novel reference-free evaluation metrics provide a more granular, context-sensitive assessment of summary faithfulness. We benchmark several open-source and closed-source LLMs using our methods. Our evaluation reveals that LLMs still face challenges in balancing sentiment and format adherence in long-form summaries, though open-source models can narrow the gap when relevant information is retrieved in a focused manner.
- Abstract(参考訳): オンラインレビューは、商品の購入からホテルやレストランの選択に至るまで、さまざまな領域で消費者の判断に影響を与える重要な役割を担っている。
しかし、しばしば反復的あるいは無関係なコンテンツを含むレビューの膨大な量は、情報の過負荷につながるため、ユーザが意味のある洞察を抽出することは困難である。
従来の意見要約モデルは、長いインプットと大量のレビューを扱う上で困難に直面するが、新しいLarge Language Model(LLM)アプローチは、正確で忠実な要約を生成するのに失敗することが多い。
これらの課題に対処するため,(1)長文ユーザレビューの新しいデータセット,(2)長文インプットにスケールするトレーニングフリーのLCMに基づく要約アプローチ,(3)自動評価指標を提案する。
ユーザレビューのデータセットは、ドメインの専門家による詳細な、偏見のない批判的な要約と組み合わせられ、評価の基準として役立ちます。
さらに、我々の新しい基準フリー評価指標は、要約忠実度をよりきめ細やかで文脈に敏感な評価を提供する。
提案手法を用いて,複数のオープンソースおよびクローズドソース LLM のベンチマークを行った。
我々の評価では、LLMは長文要約における感情と形式順守のバランスをとる上で依然として課題に直面しているが、オープンソースモデルでは、関連する情報が集中的に検索される場合のギャップを狭めることができる。
関連論文リスト
- Real World Conversational Entity Linking Requires More Than Zeroshots [50.5691094768954]
本研究では,資源制約下でのELモデルの有効性を評価するための評価シナリオを設計する。
本稿では、Fandomと新しいゼロショット対話型エンティティリンクデータセットを用いて、ELモデルの未知KBへの一般化能力を評価する。
その結果,既存のゼロショットELモデルでは,事前トレーニングなしで新しいドメイン固有KBを導入するとフェールすることがわかった。
論文 参考訳(メタデータ) (2024-09-02T10:37:53Z) - UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches [25.133460380551327]
大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。
これらの要約は、好みや興味などの重要なユーザー情報を取り込み、パーソナライズ・アプリケーションには有用である。
しかし, 新たな要約手法の開発は, ゼロ・トラストラベルの欠如, ユーザ・サマリー固有の主観性, 人的評価などによって妨げられている。
論文 参考訳(メタデータ) (2024-08-30T01:56:57Z) - EVA-Score: Evaluating Abstractive Long-form Summarization on Informativeness through Extraction and Validation [24.259369307335774]
EVA-Scoreは抽象的な長文要約の評価指標である。
EVAスコアは人間との相関が最も高いことを示す。
また,LLMの長文要約性能を情報の観点から再評価する。
論文 参考訳(メタデータ) (2024-07-06T06:02:38Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models [17.782410287625645]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。
評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文 参考訳(メタデータ) (2024-02-21T01:39:56Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - AaKOS: Aspect-adaptive Knowledge-based Opinion Summarization [5.4138734778206]
インターネット上の情報の急速な増加は、様々な活動、製品、サービスに関する圧倒的な意見やコメントにつながっている。
これにより、ユーザが意思決定を行うときに利用可能なすべての情報を処理するのが難しく、時間がかかります。
本稿では,製品レビューのためのアスペクト適応型知識ベースオピニオン要約モデルを提案する。
論文 参考訳(メタデータ) (2023-05-26T03:44:35Z) - Towards Personalized Review Summarization by Modeling Historical Reviews
from Customer and Product Separately [59.61932899841944]
レビュー要約(review summarization)は、Eコマースのウェブサイトで製品レビューのメインの考え方を要約することを目的とした、簡単ではないタスクである。
Heterogeneous Historical Review aware Review Summarization Model (HHRRS)を提案する。
我々は、レビュー感情分類と要約を共同で行うマルチタスクフレームワークを採用している。
論文 参考訳(メタデータ) (2023-01-27T12:32:55Z) - Learning Opinion Summarizers by Selecting Informative Reviews [81.47506952645564]
31,000以上の製品のユーザレビューと組み合わせた大規模な要約データセットを収集し、教師付きトレーニングを可能にします。
多くのレビューの内容は、人間が書いた要約には反映されず、したがってランダムなレビューサブセットで訓練された要約者は幻覚する。
我々は、これらのサブセットで表現された意見を要約し、レビューの情報的サブセットを選択するための共同学習としてタスクを定式化する。
論文 参考訳(メタデータ) (2021-09-09T15:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。