論文の概要: Distilling Opinions at Scale: Incremental Opinion Summarization using XL-OPSUMM
- arxiv url: http://arxiv.org/abs/2406.10886v1
- Date: Sun, 16 Jun 2024 10:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:12:13.992367
- Title: Distilling Opinions at Scale: Incremental Opinion Summarization using XL-OPSUMM
- Title(参考訳): スケールでの蒸留オピニオン:XL-OPSUMMを用いたインクリメンタルオピニオン要約
- Authors: Sri Raghava Muddu, Rupasai Rangaraju, Tejpalsingh Siledar, Swaroop Nath, Pushpak Bhattacharyya, Swaprava Nath, Suman Banerjee, Amey Patil, Muthusamy Chelliah, Sudhanshu Shekhar Singh, Nikesh Garera,
- Abstract要約: eコマースプラットフォーム上の製品には数千のレビューがあり、各レビューは約10~15語である。
我々は,段階的に要約を生成するXl-OpSummというスケーラブルなフレームワークを提案する。
本フレームワークは, 平均ROUGE-1 F1ゲイン4.38%, ROUGE-L F1ゲイン3.70%を達成する。
- 参考スコア(独自算出の注目度): 30.674896082482476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Opinion summarization in e-commerce encapsulates the collective views of numerous users about a product based on their reviews. Typically, a product on an e-commerce platform has thousands of reviews, each review comprising around 10-15 words. While Large Language Models (LLMs) have shown proficiency in summarization tasks, they struggle to handle such a large volume of reviews due to context limitations. To mitigate, we propose a scalable framework called Xl-OpSumm that generates summaries incrementally. However, the existing test set, AMASUM has only 560 reviews per product on average. Due to the lack of a test set with thousands of reviews, we created a new test set called Xl-Flipkart by gathering data from the Flipkart website and generating summaries using GPT-4. Through various automatic evaluations and extensive analysis, we evaluated the framework's efficiency on two datasets, AMASUM and Xl-Flipkart. Experimental results show that our framework, Xl-OpSumm powered by Llama-3-8B-8k, achieves an average ROUGE-1 F1 gain of 4.38% and a ROUGE-L F1 gain of 3.70% over the next best-performing model.
- Abstract(参考訳): eコマースにおける意見要約は、レビューに基づいて、製品に関する多数のユーザの集合的な見解をカプセル化する。
通常、eコマースプラットフォーム上の製品には数千のレビューがあり、各レビューは約10~15語である。
大言語モデル(LLM)は要約タスクの習熟度を示しているが、コンテキスト制限のため、このような大量のレビューを扱うのに苦労している。
本稿では,Xl-OpSummという拡張性のあるフレームワークを提案する。
しかし、既存のテストセットであるAMASUMは、1製品平均で560のレビューしか持たない。
何千ものレビューを伴うテストセットがないため、FlipkartのWebサイトからデータを集め、GPT-4を使って要約を生成することで、Xl-Flipkartと呼ばれる新しいテストセットを作成しました。
各種自動評価と広範囲な解析により,AMASUMとXl-Flipkartの2つのデータセット上でのフレームワークの効率を評価した。
実験の結果,Llama-3-8B-8kをベースとしたXl-OpSummでは,ROUGE-1 F1が4.38%,ROUGE-L F1が3.70%向上した。
関連論文リスト
- A Fine-grained Sentiment Analysis of App Reviews using Large Language Models: An Evaluation Study [1.0787328610467801]
大きな言語モデル(LLM)は、モデルのパラメータを更新することなく、いくつかの新しいタスクで素晴らしいパフォーマンスを示している。
本研究は,GPT-4,ChatGPT,LLama-2-chatなど最先端のLCMの性能を比較し,アプリの特徴を抽出する。
その結果、GPT-4モデルは、0ショット特徴抽出によるf1スコアにおいて、ルールベースのアプローチを23.6%上回る性能を示した。
論文 参考訳(メタデータ) (2024-09-11T10:21:13Z) - Zero-shot Bilingual App Reviews Mining with Large Language Models [0.7340017786387767]
Mini-BARは、英語とフランス語の両方でユーザーレビューのゼロショットマイニングを実行するために、大きな言語モデル(LLM)を統合するツールである。
Mini-BARの性能を評価するために、6,000の英語と6000のフランス語の注釈付きユーザレビューを含むデータセットを作成しました。
論文 参考訳(メタデータ) (2023-11-06T12:36:46Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Towards Personalized Review Summarization by Modeling Historical Reviews
from Customer and Product Separately [59.61932899841944]
レビュー要約(review summarization)は、Eコマースのウェブサイトで製品レビューのメインの考え方を要約することを目的とした、簡単ではないタスクである。
Heterogeneous Historical Review aware Review Summarization Model (HHRRS)を提案する。
我々は、レビュー感情分類と要約を共同で行うマルチタスクフレームワークを採用している。
論文 参考訳(メタデータ) (2023-01-27T12:32:55Z) - Prompted Opinion Summarization with GPT-3.5 [115.95460650578678]
GPT-3.5モデルは人体評価において非常に高い性能を示す。
我々は,標準評価指標がこれを反映していないことを論じ,忠実性,事実性,汎用性を重視した3つの新しい指標を導入する。
論文 参考訳(メタデータ) (2022-11-29T04:06:21Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - E-commerce Query-based Generation based on User Review [1.484852576248587]
本稿では,従来のユーザによるレビューに基づいて,ユーザの質問に対する回答を生成するための新しいセク2seqベースのテキスト生成モデルを提案する。
ユーザの質問や感情の極性が与えられた場合,関心事の側面を抽出し,過去のユーザレビューを要約した回答を生成する。
論文 参考訳(メタデータ) (2020-11-11T04:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。