論文の概要: Towards Personalized Deep Research: Benchmarks and Evaluations
- arxiv url: http://arxiv.org/abs/2509.25106v1
- Date: Mon, 29 Sep 2025 17:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.17083
- Title: Towards Personalized Deep Research: Benchmarks and Evaluations
- Title(参考訳): パーソナライズドディープリサーチに向けて:ベンチマークと評価
- Authors: Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou,
- Abstract要約: 我々は、Deep Research Agents(DRA)におけるパーソナライズ評価のための最初のベンチマークであるPersonalized Deep Research Benchを紹介する。
さまざまな研究タスク50と、構造化されたペルソナ属性と動的現実世界のコンテキストを組み合わせた25のユーザプロファイルを組み合わせ、250のリアルなユーザタスククエリを生成する。
さまざまなシステムの実験は、パーソナライズされたディープリサーチを扱う際の現在の能力と限界を強調します。
- 参考スコア(独自算出の注目度): 56.581105664044436
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Research Agents (DRAs) can autonomously conduct complex investigations and generate comprehensive reports, demonstrating strong real-world potential. However, existing evaluations mostly rely on close-ended benchmarks, while open-ended deep research benchmarks remain scarce and typically neglect personalized scenarios. To bridge this gap, we introduce Personalized Deep Research Bench, the first benchmark for evaluating personalization in DRAs. It pairs 50 diverse research tasks across 10 domains with 25 authentic user profiles that combine structured persona attributes with dynamic real-world contexts, yielding 250 realistic user-task queries. To assess system performance, we propose the PQR Evaluation Framework, which jointly measures (P) Personalization Alignment, (Q) Content Quality, and (R) Factual Reliability. Our experiments on a range of systems highlight current capabilities and limitations in handling personalized deep research. This work establishes a rigorous foundation for developing and evaluating the next generation of truly personalized AI research assistants.
- Abstract(参考訳): Deep Research Agents(DRA)は、複雑な調査を自律的に行い、包括的なレポートを生成し、強力な現実世界の可能性を示す。
しかし、既存の評価は大半がクローズドなベンチマークに依存しているが、オープンなディープリサーチベンチマークは依然として不足しており、パーソナライズされたシナリオは無視されている。
このギャップを埋めるために、DRAにおけるパーソナライズを評価する最初のベンチマークであるPersonalized Deep Research Benchを紹介する。
10のドメインに50の多様な研究タスクと、構造化されたペルソナ属性と動的現実世界のコンテキストを組み合わせた25の認証されたユーザプロファイルを組み合わせ、250のリアルなユーザタスククエリを生成する。
P)パーソナライズアライメント、(Q)コンテンツ品質、(R)ファクチュアル信頼性を共同で測定するPQR評価フレームワークを提案する。
様々なシステムの実験は、パーソナライズされたディープリサーチを扱う際の現在の能力と限界を強調します。
この研究は、真にパーソナライズされたAI研究アシスタントの次世代の開発と評価のための厳格な基盤を確立する。
関連論文リスト
- Benchmarking Computer Science Survey Generation [18.844790013427282]
SurGE(Survey Generation Evaluation)は、コンピュータサイエンス領域における科学的サーベイ生成を評価するための新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,および参照参照の完全なセットを含む一連のテストインスタンスと,(2)検索プールとして機能する100万以上の論文からなる大規模学術コーパスから構成される。
さらに,情報カバレッジ,参照精度,構造組織,コンテンツ品質の4次元にわたる自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry [22.615102398311432]
我々は、ディープAI研究システムの能力を評価することに焦点を当てた最初のベンチマークであるResearcherBenchを紹介する。
現実の科学的シナリオから専門的に選択された65の質問のデータセットを収集した。
OpenAI Deep ResearchとGemini Deep Researchは、他のシステムよりも格段に優れており、オープンエンドのコンサルティングの質問では特に強みがある。
論文 参考訳(メタデータ) (2025-07-22T06:51:26Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - Personalized Generation In Large Model Era: A Survey [90.7579254803302]
大規模モデルの時代には、コンテンツ生成は徐々にパーソナライズドジェネレーション(PGen)へとシフトしている。
本報告では,PGen に関する総合的な調査を行い,この急速に成長する分野における既存研究について考察する。
複数のモダリティにまたがるPGen研究をブリッジすることで、この調査は知識共有と学際的コラボレーションを促進する貴重な情報源となる。
論文 参考訳(メタデータ) (2025-03-04T13:34:19Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。