Fugu-MT 論文翻訳(概要): PreAct: Predicting Future in ReAct Enhances Agent's Planning Ability

論文の概要: PreAct: Predicting Future in ReAct Enhances Agent's Planning Ability

arxiv url: http://arxiv.org/abs/2402.11534v1
Date: Sun, 18 Feb 2024 10:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 20:33:24.048955
Title: PreAct: Predicting Future in ReAct Enhances Agent's Planning Ability
Title（参考訳）: preact:reactの将来予測はエージェントの計画能力を高める
Authors: Dayuan Fu, Jianzhao Huang, Siyuan Lu, Guanting Dong, Yejie Wang, Keqing He, Weiran Xu
Abstract要約: これは$textbfpre$dictionと$textbfrea$soningと$textbfact$ionを統合したエージェントフレームワークです。実験の結果,PreActは複雑なタスクを遂行する上でReActのアプローチよりも優れており,Reflexion法と組み合わせることでPreActを併用できることがわかった。
参考スコア（独自算出の注目度）: 24.21431070097576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Addressing the discrepancies between predictions and actual outcomes often aids individuals in expanding their thought processes and engaging in reflection, thereby facilitating reasoning in the correct direction. In this paper, we introduce $\textbf{PreAct}$, an agent framework that integrates $\textbf{pre}$diction with $\textbf{rea}$soning and $\textbf{act}$ion. Leveraging the information provided by predictions, a large language model (LLM) based agent can offer more diversified and strategically oriented reasoning, which in turn leads to more effective actions that help the agent complete complex tasks. Our experiments demonstrate that PreAct outperforms the ReAct approach in accomplishing complex tasks and that PreAct can be co-enhanced when combined with Reflexion methods. We prompt the model with different numbers of historical predictions and find that historical predictions have a sustained positive effect on LLM planning. The differences in single-step reasoning between PreAct and ReAct show that PreAct indeed offers advantages in terms of diversity and strategic directivity over ReAct.
Abstract（参考訳）: 予測と実際の結果の相違に対処することは、思考プロセスを拡大し、リフレクションに関わり、正しい方向への推論を促進するのに役立つ。本稿では、$\textbf{pre}$dictionと$\textbf{rea}$soningと$\textbf{act}$ionを統合したエージェントフレームワークである$\textbf{PreAct}$を紹介します。予測によって提供される情報を活用することで、大きな言語モデル(LLM)ベースのエージェントは、より多様化し、戦略的に指向した推論を提供することができる。実験により,PreActは複雑なタスクを遂行する上でReActアプローチよりも優れており,Reflexion法と組み合わせることでPreActを協調的に実現できることが実証された。我々は,そのモデルに異なる数の歴史的予測を推奨し,過去の予測がllm計画に継続的なプラス効果をもたらすことを見出した。 PreActとReActの単一ステップ推論の違いは、PreActがReActよりも多様性と戦略的指向性という面で、確かに有利であることを示している。

関連論文リスト

Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文参考訳（メタデータ） (2025-04-23T17:53:34Z)
Interpreting Emergent Planning in Model-Free Reinforcement Learning [13.820891288919002]
モデルフリー強化学習エージェントが計画を学ぶことができるという最初の証拠を提示する。これは、ソコバンのモデルフリーエージェントに概念ベースの解釈可能性に基づく方法論を適用することで達成される。
論文参考訳（メタデータ） (2025-04-02T16:24:23Z)
Microfoundation Inference for Strategic Prediction [26.277259491014163]
本稿では,人口に対する予測モデルの長期的影響をカプセル化した分布図の学習手法を提案する。具体的には,エージェントの応答をコストユーティリティ問題としてモデル化し,そのコストを見積もる。本稿では,この推定値の収束率と,クレジット・スコアリング・データセットの実証実験による品質評価について述べる。
論文参考訳（メタデータ） (2024-11-13T19:37:49Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Predicting Future Actions of Reinforcement Learning Agents [27.6973598477153]
本稿では,3種類の強化学習エージェントの今後の行動と事象予測の有効性を実験的に評価し,比較した。エージェントの内部計算に基づいて予測を行う内部状態アプローチと、学習された世界モデルでエージェントをアンロールするシミュレーションベースのアプローチの2つのアプローチを採用する。内部計画を使用することで、アクションを予測する場合のシミュレーションベースのアプローチと比較して、モデル品質がより堅牢であること、イベント予測の結果がより混在していることが証明される。
論文参考訳（メタデータ） (2024-10-29T18:48:18Z)
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文参考訳（メタデータ） (2024-10-22T03:59:53Z)
Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文参考訳（メタデータ） (2024-08-09T16:03:44Z)
From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。 ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-08-05T18:38:29Z)
CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning [5.865719902445064]
本稿では,新しいマルチエージェント強化学習アルゴリズムCAMMARLを提案する。それは、異なる状況における他のエージェントのアクションを、自信集合の形でモデル化することを含む。本稿では,CAMMARLが共形予測セットをモデル化することにより,MARLにおける自律エージェントの能力を高めることを示す。
論文参考訳（メタデータ） (2023-06-19T19:03:53Z)
NashFormer: Leveraging Local Nash Equilibria for Semantically Diverse Trajectory Prediction [11.319057000888638]
NashFormerは、ゲーム理論の逆強化学習を活用してマルチモーダル予測のカバレッジを改善する、軌道予測のためのフレームワークである。実験の結果,予測器はベースラインモデルよりも33%以上の潜在的な相互作用をカバーし,正確な予測を行うことがわかった。
論文参考訳（メタデータ） (2023-05-28T00:41:29Z)
Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。 EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-04-17T10:59:57Z)
Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文参考訳（メタデータ） (2023-04-15T19:22:37Z)
What Should I Know? Using Meta-gradient Descent for Predictive Feature Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文参考訳（メタデータ） (2022-06-13T21:31:06Z)
A Word is Worth A Thousand Dollars: Adversarial Attack on Tweets Fools Stock Prediction [100.9772316028191]
本稿では,3つのストック予測犠牲者モデルを騙すために,様々な攻撃構成を試行する。以上の結果から,提案手法が一貫した成功率を達成し,取引シミュレーションにおいて大きな損失をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2022-05-01T05:12:22Z)
Finding Useful Predictions by Meta-gradient Descent to Improve Decision-making [1.384055225262046]
我々は、一般値関数として表現される予測に焦点をあてる: 将来的な信号の蓄積の時間的拡張推定。ひとつの課題は、エージェントが意思決定をサポートする可能性のある予測を、無限に多くの予測から決定することである。これらの予測を手動で指定するのではなく、学習することにより、エージェントは自己管理的な方法で有用な予測を特定できる。
論文参考訳（メタデータ） (2021-11-18T20:17:07Z)
The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。本稿では,構造的事前を損失関数として組み込むことを提案する。実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-06-04T03:56:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。