論文の概要: UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches
- arxiv url: http://arxiv.org/abs/2408.16966v1
- Date: Fri, 30 Aug 2024 01:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:39:11.565338
- Title: UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches
- Title(参考訳): UserSumBench: ユーザ要約アプローチを評価するベンチマークフレームワーク
- Authors: Chao Wang, Neo Wu, Lin Ning, Luyang Liu, Jun Xie, Shawn O'Banion, Bradley Green,
- Abstract要約: 大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。
これらの要約は、好みや興味などの重要なユーザー情報を取り込み、パーソナライズ・アプリケーションには有用である。
しかし, 新たな要約手法の開発は, ゼロ・トラストラベルの欠如, ユーザ・サマリー固有の主観性, 人的評価などによって妨げられている。
- 参考スコア(独自算出の注目度): 26.215963700512912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in generating user summaries from a long list of raw user activity data. These summaries capture essential user information such as preferences and interests, and therefore are invaluable for LLM-based personalization applications, such as explainable recommender systems. However, the development of new summarization techniques is hindered by the lack of ground-truth labels, the inherent subjectivity of user summaries, and human evaluation which is often costly and time-consuming. To address these challenges, we introduce \UserSumBench, a benchmark framework designed to facilitate iterative development of LLM-based summarization approaches. This framework offers two key components: (1) A reference-free summary quality metric. We show that this metric is effective and aligned with human preferences across three diverse datasets (MovieLens, Yelp and Amazon Review). (2) A novel robust summarization method that leverages time-hierarchical summarizer and self-critique verifier to produce high-quality summaries while eliminating hallucination. This method serves as a strong baseline for further innovation in summarization techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。
これらの要約は、好みや興味などの重要なユーザ情報を取り込み、説明可能なレコメンデータシステムなど、LLMベースのパーソナライズアプリケーションには有用である。
しかし, 新たな要約手法の開発は, 地味ラベルの欠如, ユーザ要約の主観性, 費用と時間を要する人的評価などによって妨げられている。
これらの課題に対処するために, LLM に基づく要約手法の反復的開発を容易にするベンチマークフレームワークである \UserSumBench を紹介する。
このフレームワークは、(1)参照なし要約品質メトリクスの2つの重要なコンポーネントを提供する。
この指標は,3つの多様なデータセット(MovieLens,Yelp,Amazon Review)にまたがって,人間の好みに合わせて有効であることを示す。
2) 時間階層的要約と自己批判的検証を利用して, 幻覚を排除しつつ高品質な要約を生成する新しい頑健な要約手法を提案する。
この方法は、要約技術のさらなる革新のための強力なベースラインとして機能する。
関連論文リスト
- LFOSum: Summarizing Long-form Opinions with Large Language Models [7.839083566878183]
本稿では,(1)長文ユーザレビューの新しいデータセット,(1)1000以上のレビューを含むエンティティ,(2)長期入力にスケールする2つのトレーニングフリーLCMベースの要約アプローチ,(3)自動評価指標を紹介する。
ユーザレビューのデータセットは、ドメインの専門家による詳細な、偏見のない批判的な要約と組み合わせられ、評価の基準として役立ちます。
我々の評価では、LLMは長文要約における感情と形式順守のバランスをとる上で依然として課題に直面しているが、オープンソースモデルでは、関連する情報が集中的に検索される場合のギャップを狭めることができる。
論文 参考訳(メタデータ) (2024-10-16T20:52:39Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation [16.93374578679005]
TokenRecは、大規模言語モデル(LLM)ベースのRecommender Systems(RecSys)のトークン化と検索のための新しいフレームワークである。
我々の戦略であるMasked Vector-Quantized (MQ) Tokenizerは、協調フィルタリングから学んだマスキングされたユーザ/イテム表現を離散トークンに定量化する。
我々の生成的検索パラダイムは,自動回帰復号処理やビーム検索処理の不要さを解消するために,ユーザに対してKドル以上のアイテムを効率的に推奨するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T00:07:44Z) - Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - SummIt: Iterative Text Summarization via ChatGPT [12.966825834765814]
本稿では,ChatGPTのような大規模言語モデルに基づく反復的なテキスト要約フレームワークSummItを提案する。
我々のフレームワークは、自己評価とフィードバックによって生成された要約を反復的に洗練することを可能にする。
また, 繰り返し改良の有効性を検証し, 過補正の潜在的な問題を特定するために, 人間の評価を行う。
論文 参考訳(メタデータ) (2023-05-24T07:40:06Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - Adaptive Summaries: A Personalized Concept-based Summarization Approach
by Learning from Users' Feedback [0.0]
本稿では,アダプティブ・サマリー(Adaptive Summaries)と呼ばれるインタラクティブな概念に基づく要約モデルを提案する。
本システムは,反復ループでフィードバックを与えることで,システムと対話しながら,ユーザの提供した情報から徐々に学習する。
生成したサマリーでユーザ好みのコンテンツを最大化することで、ユーザの好みに基づいた高品質なサマリー作成を支援する。
論文 参考訳(メタデータ) (2020-12-24T18:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。