論文の概要: PRInTS: Reward Modeling for Long-Horizon Information Seeking
- arxiv url: http://arxiv.org/abs/2511.19314v1
- Date: Mon, 24 Nov 2025 17:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.330422
- Title: PRInTS: Reward Modeling for Long-Horizon Information Seeking
- Title(参考訳): PRInTS:長期情報検索のためのリワードモデリング
- Authors: Jaewoo Lee, Archiki Prasad, Justin Chih-Yao Chen, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal,
- Abstract要約: PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
- 参考スコア(独自算出の注目度): 74.14496236655911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information-seeking is a core capability for AI agents, requiring them to gather and reason over tool-generated information across long trajectories. However, such multi-step information-seeking tasks remain challenging for agents backed by language models. While process reward models (PRMs) can guide agents by ranking candidate steps at test-time, existing PRMs, designed for short reasoning with binary judgment, cannot capture richer dimensions of information-seeking steps, such as tool interactions and reasoning over tool outputs, nor handle the rapidly growing context in long-horizon tasks. To address these limitations, we introduce PRInTS, a generative PRM trained with dual capabilities: (1) dense scoring based on the PRM's reasoning across multiple step quality dimensions (e.g., interpretation of tool outputs, tool call informativeness) and (2) trajectory summarization that compresses the growing context while preserving essential information for step evaluation. Extensive evaluations across FRAMES, GAIA (levels 1-3), and WebWalkerQA (easy-hard) benchmarks on multiple models, along with ablations, reveal that best-of-n sampling with PRInTS enhances information-seeking abilities of open-source models as well as specialized agents, matching or surpassing the performance of frontier models with a much smaller backbone agent and outperforming other strong reward modeling baselines.
- Abstract(参考訳): 情報検索はAIエージェントの中核的な能力であり、長い軌跡をまたいだツール生成情報を収集し、推論する必要がある。
しかし、そのような多段階の情報検索タスクは、言語モデルに支えられたエージェントにとって依然として困難である。
プロセス報酬モデル(PRM)は、テスト時に候補ステップをランク付けすることでエージェントを誘導することができるが、既存のPRMはバイナリの判断で短い推論のために設計されており、ツールインタラクションやツールアウトプットの推論といった情報検索ステップのよりリッチな次元をキャプチャできない。
これらの制約に対処するため,(1)複数のステップ品質次元(例えば,ツールアウトプットの解釈,ツールコールの通知性)におけるPRINTSと(2)ステップ評価に必要な情報を保持しながら,成長するコンテキストを圧縮するトラジェクティブ・アグリゲーション(トラジェクティブ・アグリゲーション)という2つの機能を備えたPRINTSを導入する。
FRAMES, GAIA (levels 1-3) および WebWalkerQA (easy-hard) ベンチマークの広範囲な評価により, PRInTS を用いたベストプラクティスサンプリングは,オープンソースモデルと特殊なエージェントの情報検索能力の向上,より小さなバックボーンエージェントによるフロンティアモデルのパフォーマンスのマッチングや超越, その他の強力な報酬モデルベースラインの向上, といった結果が得られた。
関連論文リスト
- MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning [41.49024599460379]
大規模言語モデル(LLM)の整合には,リワードモデル(RM)が不可欠である。
ツール拡張型ロングフォーム報酬モデルであるOpenRMを導入し、外部ツールを呼び出して適切な証拠を収集することで、オープンエンドの応答を判断する。
新たにコンパイルされた3つのデータセットと2つの広く使用されているベンチマークの実験は、OpenRMが既存の報酬モデリングアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-28T17:02:46Z) - COMPASS: Enhancing Agent Long-Horizon Reasoning with Evolving Context [17.575806280348797]
小さなエラーはステップにまたがって複雑で、最先端のモデルでさえしばしばコヒーレンスを幻覚または失う。
本稿では,戦術的実行,戦略的監視,文脈的組織を3つの特殊コンポーネントに分離する軽量階層型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T20:14:26Z) - AirQA: A Comprehensive QA Dataset for AI Research with Instance-Level Evaluation [31.02336903452371]
AirQAは人工知能(AI)分野における人手による包括的な紙QAデータセットである
3つのLDMベースのエージェントにより、ExTrActorは人間の介入なしにサンプル生成および軌道収集を行うことができる。
ExTrActorは、小さなモデルのマルチターンツール使用能力を一貫して改善し、より大きなモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-21T07:24:17Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark [0.0]
マルチステップのツール使用推論を評価するためのベンチマークであるToolCompを紹介する。
ToolCompはモデルと人間のアノテータのコラボレーションによって開発されている。
我々は、結果教師付き報酬モデルとプロセス教師付き報酬モデルのパフォーマンスを比較するために、合成トレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-01-02T15:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。