論文の概要: PaperScout: An Autonomous Agent for Academic Paper Search with Process-Aware Sequence-Level Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.10029v1
- Date: Thu, 15 Jan 2026 03:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.972448
- Title: PaperScout: An Autonomous Agent for Academic Paper Search with Process-Aware Sequence-Level Policy Optimization
- Title(参考訳): PaperScout:プロセス対応シーケンスレベルポリシー最適化による学術論文検索のための自律エージェント
- Authors: Tingyue Pan, Jie Ouyang, Mingyue Cheng, Qingchuan Li, Zirui Liu, Mingfan Pan, Shuo Yu, Qi Liu,
- Abstract要約: PaperScoutは、紙検索をシーケンシャルな意思決定プロセスとして再構成する自律エージェントである。
プロセス対応のシーケンスレベルポリシー最適化手法であるPSPO(Proximal Sequence Policy Optimization)を導入する。
合成と実世界のベンチマークの実験では、PaperScoutはワークフロー駆動の強いベースラインとRLベースラインをリコールと関連の両方で大幅に上回っている。
- 参考スコア(独自算出の注目度): 11.080060663295072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Academic paper search is a fundamental task in scientific research, yet most existing approaches rely on rigid, predefined workflows that struggle with complex, conditional queries. To address this limitation, we propose PaperScout, an autonomous agent that reformulates paper search as a sequential decision-making process. Unlike static workflows, PaperScout dynamically decides whether, when, and how to invoke search and expand tools based on accumulated retrieval context. However, training such agents presents a fundamental challenge: standard reinforcement learning methods, typically designed for single-turn tasks, suffer from a granularity mismatch when applied to multi-turn agentic tasks, where token-level optimization diverges from the granularity of sequence-level interactions, leading to noisy credit assignment. We introduce Proximal Sequence Policy Optimization (PSPO), a process-aware, sequence-level policy optimization method that aligns optimization with agent-environment interaction. Comprehensive experiments on both synthetic and real-world benchmarks demonstrate that PaperScout significantly outperforms strong workflow-driven and RL baselines in both recall and relevance, validating the effectiveness of our adaptive agentic framework and optimization strategy.
- Abstract(参考訳): 学術論文検索は科学研究の基本的な課題であるが、既存のほとんどのアプローチは複雑な条件付きクエリに苦しむ厳密で事前定義されたワークフローに依存している。
この制限に対処するため,紙検索を逐次的意思決定プロセスとして再構成する自律エージェントPaperScoutを提案する。
静的ワークフローとは異なり、PaperScoutは蓄積した検索コンテキストに基づいて検索および拡張ツールをいつ、どのように呼び出すかを動的に決定する。
しかし、そのようなエージェントの訓練には根本的な課題がある: 標準的な強化学習手法は、通常シングルターンタスク用に設計され、マルチターンエージェントタスクに適用された場合、粒度のミスマッチに悩まされる。
本稿では,プロセス認識型,シーケンスレベルのポリシ最適化手法であるPSPO(Proximal Sequence Policy Optimization)を紹介する。
合成および実世界のベンチマークの総合的な実験により、PaperScoutはリコールおよび関連性の両方において強いワークフロー駆動とRLベースラインを著しく上回り、適応的なエージェントフレームワークと最適化戦略の有効性を検証した。
関連論文リスト
- Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective [65.12150411762273]
ランダムなデモを不整合な "gibberish" にプルーニングすることで,多様なタスクにおけるパフォーマンスが著しく向上することを示す。
本稿では,低データレジームのみを用いてプルーニング戦略を自動的に検索する自己発見プロンプト最適化フレームワークPromptQuineを提案する。
論文 参考訳(メタデータ) (2025-06-22T07:53:07Z) - Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments [40.869524679544824]
Posterior and Diversity Synergized Task Smpling (PDTS) は、高速かつ堅牢なシーケンシャルな意思決定を実現するための、実装が容易な方法である。
PDTSは、堅牢なアクティブタスクサンプリングの可能性を解き、挑戦的なタスクにおけるゼロショットおよび少数ショット適応ロバスト性を大幅に改善し、特定のシナリオ下での学習プロセスを加速する。
論文 参考訳(メタデータ) (2025-04-27T07:27:17Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - Hierarchical Decision Making Based on Structural Information Principles [19.82391136775341]
本稿では,階層的意思決定のための構造情報原則に基づく新しいフレームワーク,すなわちSIDMを提案する。
本稿では,過去の状態-行動軌跡を処理し,状態と行動の抽象表現を構築する抽象化機構を提案する。
単エージェントシナリオのためのスキルベース学習手法と,多エージェントシナリオのためのロールベースの協調手法を開発し,そのどちらも,パフォーマンス向上のために様々な基礎アルゴリズムを柔軟に統合することができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - An Actor-Critic Method for Simulation-Based Optimization [6.261751912603047]
実現可能な空間から最適な設計を選択するためのシミュレーションに基づく最適化問題に焦点をあてる。
政策探索問題としてサンプリングプロセスを定式化し、強化学習(RL)の観点から解を求める。
いくつかの実験は提案アルゴリズムの有効性を検証するために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。