論文の概要: Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
- arxiv url: http://arxiv.org/abs/2602.03619v1
- Date: Tue, 03 Feb 2026 15:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.530676
- Title: Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
- Title(参考訳): DeepResearch レポート生成のための人間の選好からのクエリー特化ルーブリックの学習
- Authors: Changze Lv, Jie Zhou, Wentao Zhao, Jingwen Xu, Zisu Huang, Muzhao Tian, Shihan Dou, Tao Gui, Le Tian, Xiao Zhou, Xiaoqing Zheng, Xuanjing Huang, Jie Zhou,
- Abstract要約: 本稿では,DeepResearchレポート生成に適した,人間の参照型クエリ専用ルーリックジェネレータを訓練するためのパイプラインを提案する。
まず,DeepResearchスタイルのアノテートクエリのデータセットを,ペアレポートよりも人間の好みで構築し,強化学習を通じてルーリックジェネレータを訓練する。
提案したルーリック・ジェネレータは既存のルーリック・デザイン・ストラテジーよりも、より差別的で優れたヒューマン・アライメント・インテリジェンスを実現することを実証的に示す。
- 参考スコア(独自算出の注目度): 80.12435680651488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.
- Abstract(参考訳): 現在、DeepResearchが生成したレポートのトレーニングと評価は、検証可能な報酬信号が欠如しているため、難しいままである。
そのため、ルーブリックに基づく評価が一般的な慣行となっている。
しかし、既存のアプローチは、十分な粒度を持たない粗大で定義済みのルーブリックに依存するか、手動で構築されたクエリ固有のルーブリックに依存する。
本稿では,DeepResearchレポート生成に適した人為的なクエリ専用ルーリックジェネレータを学習するためのパイプラインを提案する。
まず,2つのレポートに対して人間の嗜好を付加したDeepResearchスタイルのクエリのデータセットを構築し,人間の選好監督とLLMに基づくルーリック評価を組み合わせたハイブリッド報酬を用いた強化学習によるルーリックジェネレータの訓練を行った。
長距離推論をよりうまく処理するために,レポート生成のためのマルチエージェントマルコフ状態(MaMs)ワークフローを導入する。
提案したルーリック・ジェネレータは既存のルーリック・デザイン・ストラテジーよりも、より差別的で優れたヒューマン・アライメント・インテリジェンスを実現できることを実証的に示す。
さらに、MaMsトレーニングフレームワークに統合されると、私たちのルーリックジェネレータを備えたDeepResearchシステムは、DeepResearch Benchのすべてのオープンソースベースラインを一貫して上回り、主要なクローズドソースモデルに匹敵するパフォーマンスを達成する。
関連論文リスト
- MSRS: Evaluating Multi-Source Retrieval-Augmented Generation [51.717139132190574]
多くの現実世界のアプリケーションは、複数のソースにまたがる情報を統合して要約する能力を必要としている。
本稿では、RAGシステムに対して異なるソース間で情報を統合するための評価ベンチマークを構築するためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T14:59:55Z) - Test-time Corpus Feedback: From Retrieval to RAG [21.517949407443453]
Retrieval-Augmented Generation (RAG) は知識集約型NLPタスクの標準フレームワークとして登場した。
ほとんどのRAGパイプラインは、検索と推論を独立したコンポーネントとして扱い、ドキュメントを一度取り出し、さらに相互作用することなく回答を生成する。
情報検索(IR)とNLPのコミュニティにおける最近の研究は、フィードバックを取り入れた適応的検索とランキング手法を導入して、このギャップを埋め始めている。
論文 参考訳(メタデータ) (2025-08-21T10:57:38Z) - Retrieval-Augmented Recommendation Explanation Generation with Hierarchical Aggregation [5.656477996187559]
Explainable Recommender System (ExRec)は、レコメンデーションプロセスへの透明性を提供し、ユーザの信頼を高め、オンラインサービスの運用を促進する。
既存のLLMベースのExRecモデルは、プロファイルの偏りと高い検索オーバーヘッドに悩まされ、デプロイメントを妨げている。
階層的集約(REXHA)を用いた検索拡張レコメンデーション記述生成を提案する。
論文 参考訳(メタデータ) (2025-07-12T08:15:05Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - AugTriever: Unsupervised Dense Retrieval and Domain Adaptation by Scalable Data Augmentation [44.93777271276723]
擬似クエリドキュメントペアを作成することにより,アノテーションフリーでスケーラブルなトレーニングを可能にする2つのアプローチを提案する。
クエリ抽出方法は、元のドキュメントから有能なスパンを選択して擬似クエリを生成する。
転送クエリ生成方法は、要約などの他のNLPタスクのために訓練された生成モデルを使用して、擬似クエリを生成する。
論文 参考訳(メタデータ) (2022-12-17T10:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。