論文の概要: LaMP-QA: A Benchmark for Personalized Long-form Question Answering
- arxiv url: http://arxiv.org/abs/2506.00137v1
- Date: Fri, 30 May 2025 18:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.388583
- Title: LaMP-QA: A Benchmark for Personalized Long-form Question Answering
- Title(参考訳): LaMP-QA:パーソナライズされた長文質問回答のベンチマーク
- Authors: Alireza Salemi, Hamed Zamani,
- Abstract要約: パーソナライズされた長文回答生成を評価するために設計されたベンチマークであるLaMP-QAを紹介する。
本ベンチマークでは,(1)芸術・エンターテイメント,(2)ライフスタイル・アンド・パーソナル・デベロップメント,(3)社会・文化の3つのカテゴリーを対象とし,45以上のサブカテゴリを対象とする。
その結果、パーソナライズされたコンテキストを組み込むことで、パフォーマンスが最大39%向上することがわかった。
- 参考スコア(独自算出の注目度): 21.115495457454365
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Personalization is essential for question answering systems that are user-centric. Despite its importance, personalization in answer generation has been relatively underexplored. This is mainly due to lack of resources for training and evaluating personalized question answering systems. We address this gap by introducing LaMP-QA -- a benchmark designed for evaluating personalized long-form answer generation. The benchmark covers questions from three major categories: (1) Arts & Entertainment, (2) Lifestyle & Personal Development, and (3) Society & Culture, encompassing over 45 subcategories in total. To assess the quality and potential impact of the LaMP-QA benchmark for personalized question answering, we conduct comprehensive human and automatic evaluations, to compare multiple evaluation strategies for evaluating generated personalized responses and measure their alignment with human preferences. Furthermore, we benchmark a number of non-personalized and personalized approaches based on open-source and proprietary large language models (LLMs). Our results show that incorporating the personalized context provided leads to performance improvements of up to 39%. The benchmark is publicly released to support future research in this area.
- Abstract(参考訳): ユーザ中心の質問応答システムにはパーソナライゼーションが不可欠である。
その重要性にもかかわらず、回答生成におけるパーソナライゼーションは比較的過小評価されている。
これは主に、パーソナライズされた質問応答システムのトレーニングと評価のためのリソースが不足しているためである。
パーソナライズされた長文回答生成を評価するために設計されたベンチマークであるLaMP-QAを導入することで、このギャップに対処する。
本ベンチマークでは,(1)芸術・エンターテイメント,(2)ライフスタイル・アンド・パーソナル・デベロップメント,(3)社会・文化の3つのカテゴリーを対象とし,45以上のサブカテゴリを対象とする。
パーソナライズされた質問応答に対するLaMP-QAベンチマークの品質と潜在的な影響を評価するため、我々は、人的および自動的な評価を行い、生成されたパーソナライズされた応答を評価するための複数の評価戦略を比較し、人的嗜好との整合性を評価する。
さらに、オープンソースおよびプロプライエタリな大規模言語モデル(LLM)に基づく、個人化されていない、パーソナライズされたアプローチを多数ベンチマークする。
その結果、パーソナライズされたコンテキストを組み込むことで、パフォーマンスが最大39%向上することがわかった。
このベンチマークは、この分野における将来の研究をサポートするために公開されている。
関連論文リスト
- Social Bias in Popular Question-Answering Benchmarks [0.0]
質問応答(QA)と読解理解(RC)ベンチマークは,知識の検索と再生において,大規模言語モデル(LLM)の能力を評価する上で不可欠である。
一般的なQAおよびRCベンチマークは偏りがあり、代表的な方法で異なる人口層や地域に関する質問をカバーしていないことを実証する。
論文 参考訳(メタデータ) (2025-05-21T14:14:47Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々は、注釈付き文書コレクションで訓練されたランキングモデルを、明示的な妥当性の代用として用いている。
ユーザ研究において,本手法は人間専門家の嗜好と相関する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - A Critical Evaluation of Evaluations for Long-form Question Answering [48.51361567469683]
LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
論文 参考訳(メタデータ) (2023-05-29T16:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。