論文の概要: Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents
- arxiv url: http://arxiv.org/abs/2505.09970v2
- Date: Mon, 19 May 2025 03:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.154941
- Title: Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents
- Title(参考訳): プレアクティヴ:マルチステッププランニングと推論によるLLMエージェントの動作改善
- Authors: Mrinal Rawat, Ambuje Gupta, Rushil Goomer, Alessandro Di Bari, Neha Gupta, Roberto Pieraccini,
- Abstract要約: 大規模言語モデル(LLM)におけるReAct能力は、現代のエージェントシステムの基盤となっている。
マルチステップ実行計画を作成することでエージェントのパフォーマンスを向上させる新しいアプローチであるPre-Actを導入する。
我々のアプローチは会話エージェントと非会話エージェントの両方に適用できる。
- 参考スコア(独自算出の注目度): 40.73340280747757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ReAct (Reasoning + Action) capability in large language models (LLMs) has become the foundation of modern agentic systems. Recent LLMs, such as DeepSeek-R1 and OpenAI o1/o3, exemplify this by emphasizing reasoning through the generation of ample intermediate tokens, which help build a strong premise before producing the final output tokens. In this paper, we introduce Pre-Act, a novel approach that enhances the agent's performance by creating a multi-step execution plan along with the detailed reasoning for the given user input. This plan incrementally incorporates previous steps and tool outputs, refining itself after each step execution until the final response is obtained. Our approach is applicable to both conversational and non-conversational agents. To measure the performance of task-oriented agents comprehensively, we propose a two-level evaluation framework: (1) turn level and (2) end-to-end. Our turn-level evaluation, averaged across five models, shows that our approach, Pre-Act, outperforms ReAct by 70% in Action Recall on the Almita dataset. While this approach is effective for larger models, smaller models crucial for practical applications, where latency and cost are key constraints, often struggle with complex reasoning tasks required for agentic systems. To address this limitation, we fine-tune relatively small models such as Llama 3.1 (8B & 70B) using the proposed Pre-Act approach. Our experiments show that the fine-tuned 70B model outperforms GPT-4, achieving a 69.5% improvement in action accuracy (turn-level) and a 28% improvement in goal completion rate (end-to-end) on the Almita (out-of-domain) dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるReAct(Reasoning + Action)能力は、現代のエージェントシステムの基盤となっている。
近年のLLM(DeepSeek-R1やOpenAI o1/o3)は、中間トークンの生成によって推論を強調することでこれを実証している。
本稿では,マルチステップ実行計画を作成することでエージェントのパフォーマンスを向上させる新しいアプローチであるPre-Actを紹介する。
この計画は以前のステップとツールのアウトプットを漸進的に取り入れ、最終応答が得られるまで各ステップの実行後に自分自身を精錬する。
我々のアプローチは会話エージェントと非会話エージェントの両方に適用できる。
タスク指向エージェントの性能を総合的に評価するために,(1)ターンレベルと(2)エンド・ツー・エンドの2段階評価フレームワークを提案する。
我々のターンレベルの評価は、5つのモデルで平均化され、我々のアプローチであるPre-Actは、Almitaデータセット上でのアクションリコールにおいて、ReActを70%上回っていることを示している。
このアプローチは大規模なモデルでは有効であるが、レイテンシとコストが重要な制約である実用的なアプリケーションではより小さなモデルが重要であり、エージェントシステムに必要な複雑な推論タスクに悩まされることが多い。
この制限に対処するために、提案したPre-Actアプローチを用いて、Llama 3.1 (8B & 70B) のような比較的小さなモデルを微調整する。
実験の結果, 微調整70BモデルはGPT-4より優れ, 69.5%の動作精度(ターンレベル)向上, 28%の目標達成率(エンド・ツー・エンド)をAlmitaデータセット(アウト・オブ・ドメイン)で達成した。
関連論文リスト
- DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks [2.9449838351181374]
後学習,特に強化学習は,大規模言語モデル(LLM)の新しい学習パラダイムとなった
モデル一般化を強化するための高レベルの抽象計画について,アクション空間内での探索を提案する。
GSM8KとMATHを専門にトレーニングした本手法は,性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-09-13T08:59:31Z) - Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。
トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。
このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文 参考訳(メタデータ) (2024-07-18T21:36:00Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。