論文の概要: BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback
- arxiv url: http://arxiv.org/abs/2509.21106v1
- Date: Thu, 25 Sep 2025 12:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.911148
- Title: BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback
- Title(参考訳): BESPOKE:診断フィードバックによる検索強化大言語モデルのパーソナライズのためのベンチマーク
- Authors: Hyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee,
- Abstract要約: 本稿では,検索強化された大規模言語モデルにおけるパーソナライズ評価のための現実的なベンチマークであるBESPOKEを提案する。
BESPOKEは、人間から直接、本物のチャットと検索履歴を収集することによって、現実的なものの両方を意図している。
我々は,情報探索タスクにおける効果的なパーソナライズのための重要な要件を明らかにする体系的な分析を行う。
- 参考スコア(独自算出の注目度): 9.980170820190093
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Search-augmented large language models (LLMs) have advanced information-seeking tasks by integrating retrieval into generation, reducing users' cognitive burden compared to traditional search systems. Yet they remain insufficient for fully addressing diverse user needs, which requires recognizing how the same query can reflect different intents across users and delivering information in preferred forms. While recent systems such as ChatGPT and Gemini attempt personalization by leveraging user histories, systematic evaluation of such personalization is under-explored. To address this gap, we propose BESPOKE, the realistic benchmark for evaluating personalization in search-augmented LLMs. BESPOKE is designed to be both realistic, by collecting authentic chat and search histories directly from humans, and diagnostic, by pairing responses with fine-grained preference scores and feedback. The benchmark is constructed through long-term, deeply engaged human annotation, where human annotators contributed their own histories, authored queries with detailed information needs, and evaluated responses with scores and diagnostic feedback. Leveraging BESPOKE, we conduct systematic analyses that reveal key requirements for effective personalization in information-seeking tasks, providing a foundation for fine-grained evaluation of personalized search-augmented LLMs. Our code and data are available at https://augustinlib.github.io/BESPOKE/.
- Abstract(参考訳): 検索強化された大規模言語モデル(LLM)は、検索を生成に組み込むことで、従来の検索システムに比べてユーザの認知負担を軽減し、高度な情報検索タスクを有する。
しかし、これらは多様なユーザニーズに完全に対処するには不十分であり、同じクエリがユーザ間で異なる意図を反映し、望ましい形式で情報を提供する方法を認識する必要がある。
近年のChatGPTやGeminiなどのシステムでは,ユーザ履歴を利用してパーソナライズを試みているが,そのようなパーソナライズを体系的に評価する手法は未検討である。
このギャップに対処するために,探索拡張LDMにおけるパーソナライズ評価のための現実的なベンチマークであるBESPOKEを提案する。
BESPOKEは、人間の真正なチャットや検索履歴を直接収集し、反応と微妙な好みのスコアとフィードバックをペアリングすることによって、現実的かつリアルに設計されている。
このベンチマークは、人間の注釈が自身の履歴を投稿し、詳細な情報を必要とするクエリを作成したり、スコアや診断フィードバックで回答を評価したりする、長期的な人間のアノテーションによって構築されている。
BESPOKEを活用することで、情報検索タスクにおける効果的なパーソナライズのための重要な要件を明らかにする体系的な分析を行い、パーソナライズされたLLMのきめ細かい評価のための基盤を提供する。
私たちのコードとデータはhttps://augustinlib.github.io/BESPOKE/で公開されています。
関連論文リスト
- A Generative Framework for Personalized Sticker Retrieval [73.57899194210141]
我々はパーソナライズされたステッカー検索のための新しい生成フレームワークであるPEARLを提案する。
i) ユーザ固有のステッカー嗜好を符号化するために,識別的ユーザ表現を学習するための表現学習モデルを設計し, (ii) ユーザのクエリ意図に合致したステッカーを生成するために, 新たな意図認識学習目標を提案する。
オフライン評価とオンラインテストの両方による実証的な結果は、PEARLが最先端の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-22T13:11:44Z) - PersonaFeedback: A Large-scale Human-annotated Benchmark For Personalization [25.45861816665351]
我々は、パーソナライズされた応答を提供するLLMの能力を直接評価する新しいベンチマークであるPersonaFeedbackを紹介する。
過去のインタラクションから暗黙のユーザペルソナを推論するモデルを必要とする既存のベンチマークとは異なり、PersonaFeedbackはパーソナライゼーションからペルソナ推論を分離する。
PersonaFeedbackは8298人の注釈付きテストケースで構成されており、簡単、中、硬い層に分類される。
論文 参考訳(メタデータ) (2025-06-15T17:19:19Z) - LLM-Driven Usefulness Judgment for Web Search Evaluation [12.10711284043516]
情報検索(IR)における検索体験の最適化と多種多様なユーザ意図支援の基礎的評価
従来の検索評価手法は主に関連ラベルに依存しており、検索された文書がユーザのクエリとどのようにマッチするかを評価する。
本稿では,文書の有用性を評価するために,暗黙的かつ明示的なユーザ行動信号の両方を組み込んだLCM生成実用性ラベルを提案する。
論文 参考訳(メタデータ) (2025-04-19T20:38:09Z) - A Survey of Personalized Large Language Models: Progress and Future Directions [86.45576419251302]
LLM(Large Language Models)は、一般的な知識タスクを扱うのに優れているが、ユーザ固有のパーソナライゼーションに苦慮している。
パーソナライズされた大規模言語モデル(PLLM)は、個々のユーザデータを活用することでこれらの課題に対処する。
PLLMは、ユーザの満足度を大幅に向上させ、会話エージェント、システム、感情認識、医療アシスタントなどの幅広い用途に応用することができる。
論文 参考訳(メタデータ) (2025-02-17T07:58:31Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement [79.2400720115588]
本稿では,タスクコンテキスト間の一般化を改善するための階層的な構築プロセスからなる,シンプルで効果的なフレームワークであるPersona-DBを紹介する。
応答予測の評価において,Persona-DB は精度を著しく低減した検索サイズで維持する上で,より優れたコンテキスト効率を示す。
我々の実験は、ユーザーが極めて少ないデータを持つ場合、コールドスタートシナリオで10%以上の顕著な改善が示されていることも示している。
論文 参考訳(メタデータ) (2024-02-16T20:20:43Z) - Knowledge-Augmented Large Language Models for Personalized Contextual
Query Suggestion [16.563311988191636]
我々は,Web上での検索と閲覧活動に基づいて,各ユーザを対象としたエンティティ中心の知識ストアを構築した。
この知識ストアは、公的な知識グラフ上の興味と知識のユーザ固有の集約予測のみを生成するため、軽量である。
論文 参考訳(メタデータ) (2023-11-10T01:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。