論文の概要: PreAct: Predicting Future in ReAct Enhances Agent's Planning Ability
- arxiv url: http://arxiv.org/abs/2402.11534v1
- Date: Sun, 18 Feb 2024 10:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:33:24.048955
- Title: PreAct: Predicting Future in ReAct Enhances Agent's Planning Ability
- Title(参考訳): preact:reactの将来予測はエージェントの計画能力を高める
- Authors: Dayuan Fu, Jianzhao Huang, Siyuan Lu, Guanting Dong, Yejie Wang,
Keqing He, Weiran Xu
- Abstract要約: これは$textbfpre$dictionと$textbfrea$soningと$textbfact$ionを統合したエージェントフレームワークです。
実験の結果,PreActは複雑なタスクを遂行する上でReActのアプローチよりも優れており,Reflexion法と組み合わせることでPreActを併用できることがわかった。
- 参考スコア(独自算出の注目度): 24.21431070097576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the discrepancies between predictions and actual outcomes often
aids individuals in expanding their thought processes and engaging in
reflection, thereby facilitating reasoning in the correct direction. In this
paper, we introduce $\textbf{PreAct}$, an agent framework that integrates
$\textbf{pre}$diction with $\textbf{rea}$soning and $\textbf{act}$ion.
Leveraging the information provided by predictions, a large language model
(LLM) based agent can offer more diversified and strategically oriented
reasoning, which in turn leads to more effective actions that help the agent
complete complex tasks. Our experiments demonstrate that PreAct outperforms the
ReAct approach in accomplishing complex tasks and that PreAct can be
co-enhanced when combined with Reflexion methods. We prompt the model with
different numbers of historical predictions and find that historical
predictions have a sustained positive effect on LLM planning. The differences
in single-step reasoning between PreAct and ReAct show that PreAct indeed
offers advantages in terms of diversity and strategic directivity over ReAct.
- Abstract(参考訳): 予測と実際の結果の相違に対処することは、思考プロセスを拡大し、リフレクションに関わり、正しい方向への推論を促進するのに役立つ。
本稿では、$\textbf{pre}$dictionと$\textbf{rea}$soningと$\textbf{act}$ionを統合したエージェントフレームワークである$\textbf{PreAct}$を紹介します。
予測によって提供される情報を活用することで、大きな言語モデル(LLM)ベースのエージェントは、より多様化し、戦略的に指向した推論を提供することができる。
実験により,PreActは複雑なタスクを遂行する上でReActアプローチよりも優れており,Reflexion法と組み合わせることでPreActを協調的に実現できることが実証された。
我々は,そのモデルに異なる数の歴史的予測を推奨し,過去の予測がllm計画に継続的なプラス効果をもたらすことを見出した。
PreActとReActの単一ステップ推論の違いは、PreActがReActよりも多様性と戦略的指向性という面で、確かに有利であることを示している。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Predicting Future Actions of Reinforcement Learning Agents [27.6973598477153]
本稿では,3種類の強化学習エージェントの今後の行動と事象予測の有効性を実験的に評価し,比較した。
エージェントの内部計算に基づいて予測を行う内部状態アプローチと、学習された世界モデルでエージェントをアンロールするシミュレーションベースのアプローチの2つのアプローチを採用する。
内部計画を使用することで、アクションを予測する場合のシミュレーションベースのアプローチと比較して、モデル品質がより堅牢であること、イベント予測の結果がより混在していることが証明される。
論文 参考訳(メタデータ) (2024-10-29T18:48:18Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning [5.865719902445064]
本稿では,新しいマルチエージェント強化学習アルゴリズムCAMMARLを提案する。
それは、異なる状況における他のエージェントのアクションを、自信集合の形でモデル化することを含む。
本稿では,CAMMARLが共形予測セットをモデル化することにより,MARLにおける自律エージェントの能力を高めることを示す。
論文 参考訳(メタデータ) (2023-06-19T19:03:53Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Finding Useful Predictions by Meta-gradient Descent to Improve
Decision-making [1.384055225262046]
我々は、一般値関数として表現される予測に焦点をあてる: 将来的な信号の蓄積の時間的拡張推定。
ひとつの課題は、エージェントが意思決定をサポートする可能性のある予測を、無限に多くの予測から決定することである。
これらの予測を手動で指定するのではなく、学習することにより、エージェントは自己管理的な方法で有用な予測を特定できる。
論文 参考訳(メタデータ) (2021-11-18T20:17:07Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。