論文の概要: LaMP-QA: A Benchmark for Personalized Long-form Question Answering
- arxiv url: http://arxiv.org/abs/2506.00137v1
- Date: Fri, 30 May 2025 18:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.388583
- Title: LaMP-QA: A Benchmark for Personalized Long-form Question Answering
- Title(参考訳): LaMP-QA:パーソナライズされた長文質問回答のベンチマーク
- Authors: Alireza Salemi, Hamed Zamani,
- Abstract要約: パーソナライズされた長文回答生成を評価するために設計されたベンチマークであるLaMP-QAを紹介する。
本ベンチマークでは,(1)芸術・エンターテイメント,(2)ライフスタイル・アンド・パーソナル・デベロップメント,(3)社会・文化の3つのカテゴリーを対象とし,45以上のサブカテゴリを対象とする。
その結果、パーソナライズされたコンテキストを組み込むことで、パフォーマンスが最大39%向上することがわかった。
- 参考スコア(独自算出の注目度): 21.115495457454365
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Personalization is essential for question answering systems that are user-centric. Despite its importance, personalization in answer generation has been relatively underexplored. This is mainly due to lack of resources for training and evaluating personalized question answering systems. We address this gap by introducing LaMP-QA -- a benchmark designed for evaluating personalized long-form answer generation. The benchmark covers questions from three major categories: (1) Arts & Entertainment, (2) Lifestyle & Personal Development, and (3) Society & Culture, encompassing over 45 subcategories in total. To assess the quality and potential impact of the LaMP-QA benchmark for personalized question answering, we conduct comprehensive human and automatic evaluations, to compare multiple evaluation strategies for evaluating generated personalized responses and measure their alignment with human preferences. Furthermore, we benchmark a number of non-personalized and personalized approaches based on open-source and proprietary large language models (LLMs). Our results show that incorporating the personalized context provided leads to performance improvements of up to 39%. The benchmark is publicly released to support future research in this area.
- Abstract(参考訳): ユーザ中心の質問応答システムにはパーソナライゼーションが不可欠である。
その重要性にもかかわらず、回答生成におけるパーソナライゼーションは比較的過小評価されている。
これは主に、パーソナライズされた質問応答システムのトレーニングと評価のためのリソースが不足しているためである。
パーソナライズされた長文回答生成を評価するために設計されたベンチマークであるLaMP-QAを導入することで、このギャップに対処する。
本ベンチマークでは,(1)芸術・エンターテイメント,(2)ライフスタイル・アンド・パーソナル・デベロップメント,(3)社会・文化の3つのカテゴリーを対象とし,45以上のサブカテゴリを対象とする。
パーソナライズされた質問応答に対するLaMP-QAベンチマークの品質と潜在的な影響を評価するため、我々は、人的および自動的な評価を行い、生成されたパーソナライズされた応答を評価するための複数の評価戦略を比較し、人的嗜好との整合性を評価する。
さらに、オープンソースおよびプロプライエタリな大規模言語モデル(LLM)に基づく、個人化されていない、パーソナライズされたアプローチを多数ベンチマークする。
その結果、パーソナライズされたコンテキストを組み込むことで、パフォーマンスが最大39%向上することがわかった。
このベンチマークは、この分野における将来の研究をサポートするために公開されている。
関連論文リスト
- PersonaFeedback: A Large-scale Human-annotated Benchmark For Personalization [25.45861816665351]
我々は、パーソナライズされた応答を提供するLLMの能力を直接評価する新しいベンチマークであるPersonaFeedbackを紹介する。
過去のインタラクションから暗黙のユーザペルソナを推論するモデルを必要とする既存のベンチマークとは異なり、PersonaFeedbackはパーソナライゼーションからペルソナ推論を分離する。
PersonaFeedbackは8298人の注釈付きテストケースで構成されており、簡単、中、硬い層に分類される。
論文 参考訳(メタデータ) (2025-06-15T17:19:19Z) - Social Bias in Popular Question-Answering Benchmarks [0.0]
質問応答(QA)と読解理解(RC)ベンチマークは,知識の検索と再生において,大規模言語モデル(LLM)の能力を評価する上で不可欠である。
一般的なQAおよびRCベンチマークは偏りがあり、代表的な方法で異なる人口層や地域に関する質問をカバーしていないことを実証する。
論文 参考訳(メタデータ) (2025-05-21T14:14:47Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - From Guessing to Asking: An Approach to Resolving the Persona Knowledge Gap in LLMs during Multi-Turn Conversations [11.958380211411386]
本研究では,ペルソナの知識ギャップ,モデルの内的理解と一貫性とパーソナライズされた会話に必要な知識との相違について紹介する。
本稿では,ペルソナの知識ギャップを動的に検出・解決する新しいフレームワークであるCPER(Conversation Preference Elicitation and Recommendation)を提案する。
CPERは、嗜好抽出のためのコンテキスト理解モジュール、不確実性を計測し、ペルソナアライメントを精製する動的フィードバックモジュール、蓄積されたユーザコンテキストに基づいて応答を適応するペルソナ駆動応答生成モジュールの3つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2025-03-16T15:55:29Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々は、注釈付き文書コレクションで訓練されたランキングモデルを、明示的な妥当性の代用として用いている。
ユーザ研究において,本手法は人間専門家の嗜好と相関する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文 参考訳(メタデータ) (2024-03-13T07:31:20Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - A Critical Evaluation of Evaluations for Long-form Question Answering [48.51361567469683]
LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
論文 参考訳(メタデータ) (2023-05-29T16:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。