Fugu-MT 論文翻訳(概要): Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users

論文の概要: Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users

arxiv url: http://arxiv.org/abs/2603.16120v1
Date: Tue, 17 Mar 2026 04:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.10233
Title: Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users
Title（参考訳）: 言語モデルは、あなたが望むものを理解していない: ディープリサーチにおけるパーソナライズを評価するには、実際のユーザーが必要である
Authors: Nishant Balepur, Malachi Hamada, Varsha Kishore, Sergey Feldman, Amanpreet Singh, Pao Siangliulue, Joseph Chee Chang, Eunsol Choi, Jordan Lee Boyd-Graber, Aakanksha Naik,
Abstract要約: Deep Research (DR) ツールは、研究者の問い合わせに答えるために科学論文を合成できるが、ユーザに対する理解が欠如している。本研究では、ユーザの研究関心のプロファイルを推測するパーソナライズされたDRツールを開発し、ユーザの入力クエリに対するパーソナライズされたアクションを提案する。 LLM の審査員が検出不能なパーソナライズドDRの9つのニュアンスドエラーを明らかにし,定性的なフィードバックを用いて将来のDR設計のレッスンを作成する。
参考スコア（独自算出の注目度）: 48.61084675902644
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Research (DR) tools (e.g. OpenAI DR) help researchers cope with ballooning publishing counts. Such tools can synthesize scientific papers to answer researchers' queries, but lack understanding of their users. We change that in MyScholarQA (MySQA), a personalized DR tool that: 1) infers a profile of a user's research interests; 2) proposes personalized actions for a user's input query; and 3) writes a multi-section report for the query that follows user-approved actions. We first test MySQA with NLP's standard protocol: we design a benchmark of synthetic users and LLM judges, where MySQA beats baselines in citation metrics and personalized action-following. However, we suspect this process does not cover all aspects of personalized DR users value, so we interview users in an online version of MySQA to unmask them. We reveal nine nuanced errors of personalized DR undetectable by our LLM judges, and we study qualitative feedback to form lessons for future DR design. In all, we argue for a pillar of personalization that easy-to-use LLM judges can lead NLP to overlook: real progress in personalization is only possible with real users.
Abstract（参考訳）: Deep Research(DR)ツール(例:OpenAI DR)は、研究者がバルーン発行数に対処するのに役立つ。このようなツールは研究者の質問に答えるために科学論文を合成することができるが、ユーザーの理解は欠如している。 MyScholarQA(MyScholarQA)では、次のように変更しています。 1) ユーザの研究関心のプロファイルを推測する。 2)ユーザの入力クエリに対してパーソナライズされたアクションを提案する。 3) ユーザが承認したアクションに従うクエリに対して,複数セクションのレポートを記述する。我々は、まず、NLPの標準プロトコルでMySQAをテストした:我々は合成ユーザとLLM審査員のベンチマークを設計し、MySQAは引用メトリクスとパーソナライズされたアクションフォローのベースラインを上回った。しかし、このプロセスはパーソナライズされたDRユーザ価値のすべての側面をカバーしていないため、MySQAのオンラインバージョンでユーザをインタビューし、それらを解き放つ。 LLM の審査員が検出不能なパーソナライズドDRの9つのニュアンスドエラーを明らかにし,定性的なフィードバックを用いて将来のDR設計のレッスンを作成する。全体として、パーソナライゼーションの柱として、簡単に使えるLCMの裁判官は、NLPを見逃しがちである: パーソナライゼーションの本当の進歩は、実際のユーザでしかできない。

論文の概要: Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users

関連論文リスト