論文の概要: Self-Evolving Deep Research via Joint Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2606.04507v1
- Date: Wed, 03 Jun 2026 06:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.58953
- Title: Self-Evolving Deep Research via Joint Generation and Evaluation
- Title(参考訳): ジョイントジェネレーションと評価による自己進化型深層研究
- Authors: Han Zhu, Chengkun Cai, Yuanfeng Song, Xing Chen, Sirui Han, Yike Guo,
- Abstract要約: ディープ・リサーチ・レポート・ジェネレーションには決定的な根拠が欠けているため、報酬設計は本質的に検証不可能である。
既存のアプローチは、LCM-as-a-judgeとクエリ依存評価ルーブリックでこの課題を軽減する。
我々は、この制限を、ディープテキストbfresearchの評価と生成のためのTextbfco進化学習フレームワークで解決する。
- 参考スコア(独自算出の注目度): 29.861012849163945
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly important capability. Unlike traditional question-answering (QA) tasks, deep research report generation lacks definitive ground-truth, making reward design inherently unverifiable and limiting effective reinforcement learning. Existing approaches mitigate this challenge with LLM-as-a-judge and query-dependent evaluation rubrics, but they still rely on static evaluators that cannot adapt their standards as the solver improves, leading to insufficient and eventually saturated optimization pressure. We address this limitation with a \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for deep \textbf{re}search evaluation and generation (SCORE), which tightly couples an evaluator and a solver in a shared-parameter learning process. Rather than treating generation and evaluation as isolated modules, we leverage their intrinsic connection to enable joint improvement within a single shared-parameter model. To restrict this process, we introduce a meta-harness, which dynamically controls the evaluation environment based on solver performance, encouraging valid evaluation dimensions and sufficiently deep evaluator search. Extensive experiments on deep research benchmarks demonstrate consistent improvement in report generation quality, showing that co-evolving evaluation and generation is a promising direction for training open-ended research agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に重要な機能として深い研究が目立って、日々のアプリケーションでますます採用されてきている。
従来の質問応答(QA)タスクとは異なり、ディープリサーチレポート生成は決定的な基盤的真実を欠き、報酬設計を本質的に検証不能にし、効果的な強化学習を制限する。
既存のアプローチは、LCM-as-a-judgeとクエリ依存評価ルーブリックでこの課題を緩和するが、解決器が改善するにつれて標準に適応できない静的評価器に依存しており、不十分で最終的に飽和した最適化圧力をもたらす。
我々は,この制限を,共有パラメータ学習プロセスにおいて評価器と解決器を密結合したディープ \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for Deep \textbf{re}search Evaluation and generation (SCORE) を用いて解決する。
生成と評価を独立したモジュールとして扱うのではなく、本質的な接続を利用して単一の共有パラメータモデル内でのジョイント改善を実現する。
このプロセスを制限するため、メタハーネスを導入し、ソルバ性能に基づいて評価環境を動的に制御し、有効な評価次元を奨励し、十分に深い評価者探索を行う。
ディープリサーチベンチマークに関する大規模な実験は、レポート生成品質が一貫した改善を示し、共同進化評価と生成がオープンエンドリサーチエージェントのトレーニングに有望な方向であることを示している。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - Retrieval-Augmented Generation: A Comprehensive Survey of Architectures, Enhancements, and Robustness Frontiers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルを強化するための強力なパラダイムとして登場した。
RAGは、検索品質、基底忠実度、パイプライン効率、ノイズや逆入力に対する堅牢性といった新しい課題を導入している。
本調査は、RAG研究における現在の知識を集約し、次世代の検索強化言語モデリングシステムの基礎となることを目的としている。
論文 参考訳(メタデータ) (2025-05-28T22:57:04Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。
評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文 参考訳(メタデータ) (2024-12-24T08:53:54Z) - Progress or Regress? Self-Improvement Reversal in Post-training [26.051637877066327]
本稿では,自己改善のためのポストトレーニングパラダイムの根底にある拡張を精査する包括的評価フレームワークを提案する。
ベンチマークで改善されたパフォーマンスを示すモデルは、パラドックス的により広範で必須の能力の低下を示す。
これらの結果から, ポストトレーニングによる現在の自己改善実践は, より複雑な問題に対処するためのモデルの装備に不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-06T09:07:11Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。