論文の概要: PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold
- arxiv url: http://arxiv.org/abs/2510.15862v1
- Date: Fri, 17 Oct 2025 17:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.736975
- Title: PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold
- Title(参考訳): PokeeResearch:AIフィードバックとロバスト推論による強化学習による効果的なディープリサーチ
- Authors: Yi Wan, Jiuqi Wang, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu,
- Abstract要約: PokeeResearch-7Bは、統合強化学習フレームワークに基づいて構築された7Bパラメータディープリサーチエージェントである。
AIフィードバックフレームワークからのアノテーションのない強化学習によってトレーニングされている。
7Bスケールのディープリサーチエージェントの最先端性能を実現している。
- 参考スコア(独自算出の注目度): 8.911708506837881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented large language models (LLMs) are emerging as deep research agents, systems that decompose complex queries, retrieve external evidence, and synthesize grounded responses. Yet current agents remain limited by shallow retrieval, weak alignment metrics, and brittle tool-use behavior. We introduce PokeeResearch-7B, a 7B-parameter deep research agent built under a unified reinforcement learning framework for robustness, alignment, and scalability. PokeeResearch-7B is trained by an annotation-free Reinforcement Learning from AI Feedback (RLAIF) framework to optimize policies using LLM-based reward signals that capture factual accuracy, citation faithfulness, and instruction adherence. A chain-of-thought-driven multi-call reasoning scaffold further enhances robustness through self-verification and adaptive recovery from tool failures. Among 10 popular deep research benchmarks, PokeeResearch-7B achieves state-of-the-art performance among 7B-scale deep research agents. This highlights that careful reinforcement learning and reasoning design can produce efficient, resilient, and research-grade AI agents. The model and inference code is open-sourced under MIT license at https://github.com/Pokee-AI/PokeeResearchOSS.
- Abstract(参考訳): ツール強化された大規模言語モデル(LLM)は、ディープリサーチエージェント、複雑なクエリを分解し、外部のエビデンスを取得し、接地された応答を合成するシステムとして登場している。
しかし、現在のエージェントは、浅い検索、弱いアライメントメトリクス、脆いツール使用行動によって制限されている。
我々は,ロバスト性,アライメント,拡張性のための統合強化学習フレームワークに基づいて構築された7BパラメータディープリサーチエージェントであるPokeeResearch-7Bを紹介する。
PokeeResearch-7Bは、アノテーションのない強化学習(Reinforcement Learning from AI Feedback, RLAIF)フレームワークでトレーニングされ、LLMベースの報酬信号を使用してポリシーを最適化する。
チェーン・オブ・シンク駆動型マルチコール推論の足場は、自己検証とツール障害からの適応的回復を通じて、ロバスト性をさらに向上する。
人気のDeep Researchベンチマーク10のうち、PokeeResearch-7Bは、7BスケールのDeep Researchエージェントの最先端のパフォーマンスを実現している。
このことは、注意深い強化学習と推論設計が効率的で回復力があり、研究レベルのAIエージェントを生み出すことを強調している。
モデルと推論コードはMITライセンスでhttps://github.com/Pokee-AI/PokeeResearchOSSで公開されている。
関連論文リスト
- Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - WebThinker: Empowering Large Reasoning Models with Deep Research Capability [109.8504165631888]
WebThinkerは、LEMがウェブを自律的に検索し、ウェブページをナビゲートし、推論プロセス中にレポートをドラフトすることを可能にするディープリサーチエージェントである。
また、Autonomous Think-Search-and-Draft戦略を採用しており、モデルが推論、情報収集、レポート作成をリアルタイムでシームレスにインターリーブすることができる。
我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文 参考訳(メタデータ) (2025-04-30T16:25:25Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。