論文の概要: Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users
- arxiv url: http://arxiv.org/abs/2603.16120v1
- Date: Tue, 17 Mar 2026 04:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.10233
- Title: Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users
- Title(参考訳): 言語モデルは、あなたが望むものを理解していない: ディープリサーチにおけるパーソナライズを評価するには、実際のユーザーが必要である
- Authors: Nishant Balepur, Malachi Hamada, Varsha Kishore, Sergey Feldman, Amanpreet Singh, Pao Siangliulue, Joseph Chee Chang, Eunsol Choi, Jordan Lee Boyd-Graber, Aakanksha Naik,
- Abstract要約: Deep Research (DR) ツールは、研究者の問い合わせに答えるために科学論文を合成できるが、ユーザに対する理解が欠如している。
本研究では、ユーザの研究関心のプロファイルを推測するパーソナライズされたDRツールを開発し、ユーザの入力クエリに対するパーソナライズされたアクションを提案する。
LLM の審査員が検出不能なパーソナライズドDRの9つのニュアンスドエラーを明らかにし,定性的なフィードバックを用いて将来のDR設計のレッスンを作成する。
- 参考スコア(独自算出の注目度): 48.61084675902644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Research (DR) tools (e.g. OpenAI DR) help researchers cope with ballooning publishing counts. Such tools can synthesize scientific papers to answer researchers' queries, but lack understanding of their users. We change that in MyScholarQA (MySQA), a personalized DR tool that: 1) infers a profile of a user's research interests; 2) proposes personalized actions for a user's input query; and 3) writes a multi-section report for the query that follows user-approved actions. We first test MySQA with NLP's standard protocol: we design a benchmark of synthetic users and LLM judges, where MySQA beats baselines in citation metrics and personalized action-following. However, we suspect this process does not cover all aspects of personalized DR users value, so we interview users in an online version of MySQA to unmask them. We reveal nine nuanced errors of personalized DR undetectable by our LLM judges, and we study qualitative feedback to form lessons for future DR design. In all, we argue for a pillar of personalization that easy-to-use LLM judges can lead NLP to overlook: real progress in personalization is only possible with real users.
- Abstract(参考訳): Deep Research(DR)ツール(例:OpenAI DR)は、研究者がバルーン発行数に対処するのに役立つ。
このようなツールは研究者の質問に答えるために科学論文を合成することができるが、ユーザーの理解は欠如している。
MyScholarQA(MyScholarQA)では、次のように変更しています。
1) ユーザの研究関心のプロファイルを推測する。
2)ユーザの入力クエリに対してパーソナライズされたアクションを提案する。
3) ユーザが承認したアクションに従うクエリに対して,複数セクションのレポートを記述する。
我々は、まず、NLPの標準プロトコルでMySQAをテストした:我々は合成ユーザとLLM審査員のベンチマークを設計し、MySQAは引用メトリクスとパーソナライズされたアクションフォローのベースラインを上回った。
しかし、このプロセスはパーソナライズされたDRユーザ価値のすべての側面をカバーしていないため、MySQAのオンラインバージョンでユーザをインタビューし、それらを解き放つ。
LLM の審査員が検出不能なパーソナライズドDRの9つのニュアンスドエラーを明らかにし,定性的なフィードバックを用いて将来のDR設計のレッスンを作成する。
全体として、パーソナライゼーションの柱として、簡単に使えるLCMの裁判官は、NLPを見逃しがちである: パーソナライゼーションの本当の進歩は、実際のユーザでしかできない。
関連論文リスト
- MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces [97.62557395494962]
GPT-4o、Claude、Llamaを30のインターフェースでベンチマークするためにクラウドソーシングを使用します。
以上の結果から,MLLMは特定の次元において人間の嗜好を近似するが,他の次元では異なってしまうことが示唆された。
論文 参考訳(メタデータ) (2025-10-09T20:00:41Z) - Few-Shot and Training-Free Review Generation via Conversational Prompting [2.0305676256390934]
現実世界のアプリケーションは、ほとんどショットやトレーニングなしの状況に直面することが多い。
本稿では,ユーザレビューをマルチターン会話として再構成する軽量な手法である会話型プロンプトを提案する。
論文 参考訳(メタデータ) (2025-09-25T06:36:08Z) - PersonaFeedback: A Large-scale Human-annotated Benchmark For Personalization [25.45861816665351]
我々は、パーソナライズされた応答を提供するLLMの能力を直接評価する新しいベンチマークであるPersonaFeedbackを紹介する。
過去のインタラクションから暗黙のユーザペルソナを推論するモデルを必要とする既存のベンチマークとは異なり、PersonaFeedbackはパーソナライゼーションからペルソナ推論を分離する。
PersonaFeedbackは8298人の注釈付きテストケースで構成されており、簡単、中、硬い層に分類される。
論文 参考訳(メタデータ) (2025-06-15T17:19:19Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [53.059480071818136]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Step-Back Profiling: Distilling User History for Personalized Scientific Writing [50.481041470669766]
大きな言語モデル(LLM)は、さまざまな自然言語処理タスクに優れていますが、個人向けにパーソナライズされたコンテンツを生成するのに苦労しています。
ユーザ履歴を簡潔なプロファイルに抽出することで,LSMをパーソナライズするためのSTEP-BACK ProFIlingを導入する。
本手法は,一般パーソナライゼーションベンチマークにおいて,ベースラインを最大3.6ポイント向上させる。
論文 参考訳(メタデータ) (2024-06-20T12:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。