論文の概要: PolicyEvol-Agent: Evolving Policy via Environment Perception and Self-Awareness with Theory of Mind
- arxiv url: http://arxiv.org/abs/2504.15313v1
- Date: Sun, 20 Apr 2025 06:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 02:15:57.419702
- Title: PolicyEvol-Agent: Evolving Policy via Environment Perception and Self-Awareness with Theory of Mind
- Title(参考訳): 環境認識と自己認識による政策の進化と心の理論
- Authors: Yajie Yu, Yue Feng,
- Abstract要約: PolicyEvol-Agentは、他者の意図を体系的に獲得するのが特徴の包括的なフレームワークである。
PolicyEvol-Agentは、さまざまな認知操作を、内的および外的視点とともに、心の理論と統合する。
- 参考スコア(独自算出の注目度): 9.587070290189507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agents has exhibited significant intelligence in real-word simulations with Large language models (LLMs) due to the capabilities of social cognition and knowledge retrieval. However, existing research on agents equipped with effective cognition chains including reasoning, planning, decision-making and reflecting remains limited, especially in the dynamically interactive scenarios. In addition, unlike human, prompt-based responses face challenges in psychological state perception and empirical calibration during uncertain gaming process, which can inevitably lead to cognition bias. In light of above, we introduce PolicyEvol-Agent, a comprehensive LLM-empowered framework characterized by systematically acquiring intentions of others and adaptively optimizing irrational strategies for continual enhancement. Specifically, PolicyEvol-Agent first obtains reflective expertise patterns and then integrates a range of cognitive operations with Theory of Mind alongside internal and external perspectives. Simulation results, outperforming RL-based models and agent-based methods, demonstrate the superiority of PolicyEvol-Agent for final gaming victory. Moreover, the policy evolution mechanism reveals the effectiveness of dynamic guideline adjustments in both automatic and human evaluation.
- Abstract(参考訳): マルチエージェントは、社会的認知と知識検索の能力により、Large Language Model (LLM) を用いた実単語シミュレーションにおいて重要な知性を示した。
しかしながら, 推論, 計画, 意思決定, 反射などの効果的な認知連鎖を持つエージェントに関する研究は, 特に動的対話的なシナリオにおいて限られている。
加えて、人間の反応とは異なり、プロンプトベースの反応は、不確実なゲーム過程における心理的状態の認識と経験的校正において困難に直面し、必然的に認知バイアスを引き起こす。
以上を踏まえ,他者の意図を体系的に獲得し,不合理な戦略を適応的に最適化する,総合的なLCMを活用したフレームワークであるPhysicalEvol-Agentを紹介する。
具体的には、PocialEvol-Agentはまず反射的な専門的パターンを取得し、その後、内部的および外部的な視点とともに、心の理論と様々な認知的操作を統合する。
RLモデルやエージェントベースの手法よりも優れたシミュレーション結果は、最終的なゲーム勝利におけるPhysueEvol-Agentの優位性を実証する。
さらに、ポリシーの進化メカニズムは、自動評価と人的評価の両方において、動的ガイドライン調整の有効性を明らかにする。
関連論文リスト
- Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [133.45145180645537]
大規模言語モデル(LLM)の出現は、人工知能の変革的シフトを触媒している。
これらのエージェントがAI研究と実践的応用をますます推進するにつれて、その設計、評価、継続的な改善は複雑で多面的な課題を呈している。
この調査は、モジュール化された脳にインスパイアされたアーキテクチャ内でインテリジェントエージェントをフレーミングする、包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-03-31T18:00:29Z) - Build An Influential Bot In Social Media Simulations With Large Language Models [7.242974711907219]
本研究では,エージェントベースモデリング(ABM)とLarge Language Models(LLM)を組み合わせた新しいシミュレーション環境を提案する。
本稿では,Reinforcement Learning (RL) の革新的応用として,世論指導者形成の過程を再現する手法を提案する。
以上の結果から,行動空間の制限と自己観察の導入が,世論指導層形成の安定に寄与する重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2024-11-29T11:37:12Z) - Metacognition for Unknown Situations and Environments (MUSE) [3.2020845462590697]
未知の状況と環境(MUSE)フレームワークのメタ認知を提案する。
MUSEはメタ認知プロセス、特に自己認識と自己制御を自律エージェントに統合する。
エージェントは自己認識と自己制御の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-20T18:41:03Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Appraisal-Guided Proximal Policy Optimization: Modeling Psychological Disorders in Dynamic Grid World [0.0]
強化学習(RL)エージェントを用いた心理障害のモデル化手法を開発した。
心理障害をシミュレートし,エージェントの行動を制御するための報酬形成戦略を多数検討した。
修正されたPPOアルゴリズムの様々な構成の比較により、不安障害とOCD(Obsessive-Compulsive Disorder)のようなエージェントの振る舞いをシミュレートする変異が同定された。
論文 参考訳(メタデータ) (2024-07-29T19:19:54Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。
社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。
進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文 参考訳(メタデータ) (2024-01-09T15:44:44Z) - Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。