論文の概要: PreAct: Prediction Enhances Agent's Planning Ability
- arxiv url: http://arxiv.org/abs/2402.11534v2
- Date: Thu, 05 Dec 2024 04:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:28.206809
- Title: PreAct: Prediction Enhances Agent's Planning Ability
- Title(参考訳): 予測はエージェントの計画能力を高める
- Authors: Dayuan Fu, Jianzhao Huang, Siyuan Lu, Guanting Dong, Yejie Wang, Keqing He, Weiran Xu,
- Abstract要約: 我々は**PreAct**、**pre**diction、**rea**soning、**act**ionを統合したエージェントフレームワークを提示する。
予測から得られた情報を利用することで、大規模言語モデル(LLM)エージェントはより広範囲で戦略的に焦点を絞った推論を提供することができる。
- 参考スコア(独自算出の注目度): 23.058048254571027
- License:
- Abstract: Addressing the disparity between forecasts and actual results can enable individuals to expand their thought processes and stimulate self-reflection, thus promoting accurate planning. In this research, we present **PreAct**, an agent framework that integrates **pre**diction, **rea**soning, and **act**ion. By utilizing the information derived from predictions, the large language model (LLM) agent can provide a wider range and more strategically focused reasoning. This leads to more efficient actions that aid the agent in accomplishing intricate tasks. Our experimental results show that PreAct surpasses the ReAct method in completing complex tasks and that PreAct's performance can be further improved when paired with other memory or selection strategy techniques. We presented the model with varying quantities of historical predictions and discovered that these predictions consistently enhance LLM planning.The variances in single-step reasoning between PreAct and ReAct indicate that PreAct indeed has benefits in terms of diversity and strategic orientation over ReAct.
- Abstract(参考訳): 予測と実際の結果の相違に対処することで、個人は思考プロセスを拡張し、自己回帰を刺激し、正確な計画を促進することができる。
本研究では,**PreAct**,**pre**Diction,**rea**soning,**act**ionを統合したエージェントフレームワークについて述べる。
予測から得られた情報を利用することで、大規模言語モデル(LLM)エージェントはより広範囲で戦略的に焦点を絞った推論を提供することができる。
これにより、エージェントが複雑なタスクを達成するのに役立つ、より効率的なアクションがもたらされる。
実験の結果,PreActは複雑なタスクの完了時にReActメソッドを超越し,他のメモリや選択戦略と組み合わせることで,PreActのパフォーマンスをさらに向上できることがわかった。
我々は,このモデルを様々な歴史的予測とともに提示し,これらの予測がLLM計画を継続的に強化することを発見し,PreActとReActの単一ステップ推論における差異は,PreActがReActよりも多様性と戦略指向の面で真に有益であることを示唆している。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Predicting Future Actions of Reinforcement Learning Agents [27.6973598477153]
本稿では,3種類の強化学習エージェントの今後の行動と事象予測の有効性を実験的に評価し,比較した。
エージェントの内部計算に基づいて予測を行う内部状態アプローチと、学習された世界モデルでエージェントをアンロールするシミュレーションベースのアプローチの2つのアプローチを採用する。
内部計画を使用することで、アクションを予測する場合のシミュレーションベースのアプローチと比較して、モデル品質がより堅牢であること、イベント予測の結果がより混在していることが証明される。
論文 参考訳(メタデータ) (2024-10-29T18:48:18Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning [5.865719902445064]
本稿では,新しいマルチエージェント強化学習アルゴリズムCAMMARLを提案する。
それは、異なる状況における他のエージェントのアクションを、自信集合の形でモデル化することを含む。
本稿では,CAMMARLが共形予測セットをモデル化することにより,MARLにおける自律エージェントの能力を高めることを示す。
論文 参考訳(メタデータ) (2023-06-19T19:03:53Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Finding Useful Predictions by Meta-gradient Descent to Improve
Decision-making [1.384055225262046]
我々は、一般値関数として表現される予測に焦点をあてる: 将来的な信号の蓄積の時間的拡張推定。
ひとつの課題は、エージェントが意思決定をサポートする可能性のある予測を、無限に多くの予測から決定することである。
これらの予測を手動で指定するのではなく、学習することにより、エージェントは自己管理的な方法で有用な予測を特定できる。
論文 参考訳(メタデータ) (2021-11-18T20:17:07Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。