Fugu-MT 論文翻訳(概要): Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents

論文の概要: Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents

arxiv url: http://arxiv.org/abs/2505.09970v2
Date: Mon, 19 May 2025 03:17:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 12:45:56.154941
Title: Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents
Title（参考訳）: プレアクティヴ:マルチステッププランニングと推論によるLLMエージェントの動作改善
Authors: Mrinal Rawat, Ambuje Gupta, Rushil Goomer, Alessandro Di Bari, Neha Gupta, Roberto Pieraccini,
Abstract要約: 大規模言語モデル(LLM)におけるReAct能力は、現代のエージェントシステムの基盤となっている。マルチステップ実行計画を作成することでエージェントのパフォーマンスを向上させる新しいアプローチであるPre-Actを導入する。我々のアプローチは会話エージェントと非会話エージェントの両方に適用できる。
参考スコア（独自算出の注目度）: 40.73340280747757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ReAct (Reasoning + Action) capability in large language models (LLMs) has become the foundation of modern agentic systems. Recent LLMs, such as DeepSeek-R1 and OpenAI o1/o3, exemplify this by emphasizing reasoning through the generation of ample intermediate tokens, which help build a strong premise before producing the final output tokens. In this paper, we introduce Pre-Act, a novel approach that enhances the agent's performance by creating a multi-step execution plan along with the detailed reasoning for the given user input. This plan incrementally incorporates previous steps and tool outputs, refining itself after each step execution until the final response is obtained. Our approach is applicable to both conversational and non-conversational agents. To measure the performance of task-oriented agents comprehensively, we propose a two-level evaluation framework: (1) turn level and (2) end-to-end. Our turn-level evaluation, averaged across five models, shows that our approach, Pre-Act, outperforms ReAct by 70% in Action Recall on the Almita dataset. While this approach is effective for larger models, smaller models crucial for practical applications, where latency and cost are key constraints, often struggle with complex reasoning tasks required for agentic systems. To address this limitation, we fine-tune relatively small models such as Llama 3.1 (8B & 70B) using the proposed Pre-Act approach. Our experiments show that the fine-tuned 70B model outperforms GPT-4, achieving a 69.5% improvement in action accuracy (turn-level) and a 28% improvement in goal completion rate (end-to-end) on the Almita (out-of-domain) dataset.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるReAct(Reasoning + Action)能力は、現代のエージェントシステムの基盤となっている。近年のLLM(DeepSeek-R1やOpenAI o1/o3)は、中間トークンの生成によって推論を強調することでこれを実証している。本稿では,マルチステップ実行計画を作成することでエージェントのパフォーマンスを向上させる新しいアプローチであるPre-Actを紹介する。この計画は以前のステップとツールのアウトプットを漸進的に取り入れ、最終応答が得られるまで各ステップの実行後に自分自身を精錬する。我々のアプローチは会話エージェントと非会話エージェントの両方に適用できる。タスク指向エージェントの性能を総合的に評価するために,(1)ターンレベルと(2)エンド・ツー・エンドの2段階評価フレームワークを提案する。我々のターンレベルの評価は、5つのモデルで平均化され、我々のアプローチであるPre-Actは、Almitaデータセット上でのアクションリコールにおいて、ReActを70%上回っていることを示している。このアプローチは大規模なモデルでは有効であるが、レイテンシとコストが重要な制約である実用的なアプリケーションではより小さなモデルが重要であり、エージェントシステムに必要な複雑な推論タスクに悩まされることが多い。この制限に対処するために、提案したPre-Actアプローチを用いて、Llama 3.1 (8B & 70B) のような比較的小さなモデルを微調整する。実験の結果, 微調整70BモデルはGPT-4より優れ, 69.5%の動作精度(ターンレベル)向上, 28%の目標達成率(エンド・ツー・エンド)をAlmitaデータセット(アウト・オブ・ドメイン)で達成した。

関連論文リスト

KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。 KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文参考訳（メタデータ） (2025-07-11T04:07:10Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。 KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。 MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-12-15T01:09:23Z)
Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文参考訳（メタデータ） (2024-10-16T08:24:09Z)
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks [2.9449838351181374]
後学習,特に強化学習は,大規模言語モデル(LLM)の新しい学習パラダイムとなったモデル一般化を強化するための高レベルの抽象計画について,アクション空間内での探索を提案する。 GSM8KとMATHを専門にトレーニングした本手法は,性能を著しく向上することを示す。
論文参考訳（メタデータ） (2024-09-13T08:59:31Z)
Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文参考訳（メタデータ） (2024-07-18T21:36:00Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。