Fugu-MT 論文翻訳(概要): Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks

論文の概要: Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks

arxiv url: http://arxiv.org/abs/2512.03560v1
Date: Wed, 03 Dec 2025 08:28:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-04 20:02:55.199954
Title: Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks
Title（参考訳）: Reason-Plan-ReAct: 複雑なエンタープライズタスクのためのReasoner-Planner Supervising a Reasoner-Planner
Authors: Gianni Molinari, Fabio Ciravegna,
Abstract要約: RP-ReActは,低レベルの実行から戦略的計画を切り離して信頼性と効率を向上する,新しいマルチエージェントアプローチである。 RP-ReActは、各サブステップを計画するReasoner Planner Agent(RPA)と、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。 RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite recent advances, autonomous agents often struggle to solve complex tasks in enterprise domains that require coordinating multiple tools and processing diverse data sources. This struggle is driven by two main limitations. First, single-agent architectures enforce a monolithic plan-execute loop, which directly causes trajectory instability. Second, the requirement to use local open-weight models for data privacy introduces smaller context windows leading to the rapid consumption of context from large tool outputs. To solve this problem we introduce RP-ReAct (Reasoner Planner-ReAct), a novel multi-agent approach that fundamentally decouples strategic planning from low-level execution to achieve superior reliability and efficiency. RP-ReAct consists of a Reasoner Planner Agent (RPA), responsible for planning each sub-step, continuously analysing the execution results using the strong reasoning capabilities of a Large Reasoning Model, and one or multiple Proxy-Execution Agent (PEA) that translates sub-steps into concrete tool interactions using a ReAct approach. Crucially, we incorporate a context-saving strategy within the PEA to mitigate context window overflow by managing large tool outputs via external storage and on-demand access. We evaluate RP-ReAct, on the challenging, multi-domain ToolQA benchmark using a diverse set of six open-weight reasoning models. Our empirical results show that RP-ReAct achieves superior performance and improved generalization ability over state-of-the-art baselines when addressing diverse complex tasks across the evaluated domains. Furthermore we establish the enhanced robustness and stability of our approach across different model scales, paving the way for effective and deployable agentic solutions for enterprises.
Abstract（参考訳）: 最近の進歩にもかかわらず、自律エージェントは、複数のツールの調整と多様なデータソースの処理を必要とするエンタープライズドメインの複雑なタスクを解決するのに苦労することが多い。この闘争は2つの主要な制限によって引き起こされる。まず、単一エージェントアーキテクチャはモノリシックな計画実行ループを強制する。第二に、データプライバシにローカルなオープンウェイトモデルを使用する必要が生じると、コンテキストウィンドウが小さくなり、大きなツール出力からコンテキストが急速に消費される。 RP-ReAct(Reasoner Planner-ReAct)は,低レベルの実行から戦略的計画を根本的に分離し,信頼性と効率性を向上する手法である。 RP-ReActは、各サブステップを計画する責任を持つReasoner Planner Agent(RPA)と、大規模推論モデルの強い推論能力を使用して実行結果を継続的に分析するReActアプローチを用いて、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。重要なことは、外部ストレージとオンデマンドアクセスを通じて、大きなツール出力を管理することにより、コンテキストウィンドウのオーバーフローを軽減するために、PEA内にコンテキストセーブ戦略を組み込むことである。 RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。実験の結果,RP-ReActは評価領域にまたがる多種多様な複雑なタスクに対処する場合に,最先端のベースラインよりも優れた性能と一般化能力を実現することが示された。さらに、さまざまなモデルスケールにわたるアプローチの堅牢性と安定性を向上し、企業にとって効果的かつデプロイ可能なエージェントソリューションの道を開く。

関連論文リスト

Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文参考訳（メタデータ） (2025-10-06T10:44:04Z)
Efficient Agent: Optimizing Planning Capability for Multimodal Retrieval Augmented Generation [17.115587821286223]
マルチモーダル大規模言語モデル(MLLM)のリアルタイムシナリオにおける時間的制限に対処する,有望なソリューションとして,mRAG(Multimodal Retrieval-Augmented Generation)が登場した。本稿では、コンテキスト推論に基づくマルチモーダルツールを動的にオーケストレーションするmRAGプランナと、ツール認識実行シーケンシングを用いたタスク実行器の2つの重要なイノベーションを特徴とするエージェントフレームワークであるE-Agentを提案する。
論文参考訳（メタデータ） (2025-08-12T10:17:12Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Enhancing LLM-Based Agents via Global Planning and Hierarchical Execution [18.68431625184045]
GoalActは、継続的に更新されるグローバルな計画メカニズムを導入し、階層的な実行戦略を統合する新しいエージェントフレームワークである。 GoalActはタスク実行を、検索、コーディング、書き込みなどを含む高度なスキルに分解する。われわれはGoalAct on LegalAgentBenchの評価を行った。
論文参考訳（メタデータ） (2025-04-23T09:43:40Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving [89.60370366013142]
制約,検証,選択という3つの重要な要素を持つモデルに依存しない,スケーラブルなエージェントフレームワークであるPlanGENを提案する。具体的には、推論時間アルゴリズムの性能を向上させるために、制約誘導反復検証を提案する。
論文参考訳（メタデータ） (2025-02-22T06:21:56Z)
PoAct: Policy and Action Dual-Control Agent for Generalized Applications [18.342339678035685]
本稿では、汎用アプリケーションのためのポリシーとアクションデュアル・コントロル・エージェント(PoAct)を提案する。 PoActは、推論ポリシーを動的に切り替え、アクション空間を変更することで、高品質なコードアクションとより正確な推論パスを達成することを目指している。
論文参考訳（メタデータ） (2025-01-13T04:28:40Z)
Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文参考訳（メタデータ） (2024-10-03T04:07:51Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文参考訳（メタデータ） (2024-08-24T19:34:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。