論文の概要: Mental Modeling of Reinforcement Learning Agents by Language Models
- arxiv url: http://arxiv.org/abs/2406.18505v1
- Date: Wed, 26 Jun 2024 17:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 12:50:18.638835
- Title: Mental Modeling of Reinforcement Learning Agents by Language Models
- Title(参考訳): 言語モデルを用いた強化学習エージェントのメンタルモデリング
- Authors: Wenhao Lu, Xufeng Zhao, Josua Spisak, Jae Hee Lee, Stefan Wermter,
- Abstract要約: この研究は、いかに大きな言語モデルがエージェントのメンタルモデルを構築することができるか、初めて実証的に検証する。
本研究は, LLMを用いたRL剤の挙動解明の可能性を明らかにする。
- 参考スコア(独自算出の注目度): 14.668006477454616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can emergent language models faithfully model the intelligence of decision-making agents? Though modern language models exhibit already some reasoning ability, and theoretically can potentially express any probable distribution over tokens, it remains underexplored how the world knowledge these pretrained models have memorized can be utilized to comprehend an agent's behaviour in the physical world. This study empirically examines, for the first time, how well large language models (LLMs) can build a mental model of agents, termed agent mental modelling, by reasoning about an agent's behaviour and its effect on states from agent interaction history. This research may unveil the potential of leveraging LLMs for elucidating RL agent behaviour, addressing a key challenge in eXplainable reinforcement learning (XRL). To this end, we propose specific evaluation metrics and test them on selected RL task datasets of varying complexity, reporting findings on agent mental model establishment. Our results disclose that LLMs are not yet capable of fully mental modelling agents through inference alone without further innovations. This work thus provides new insights into the capabilities and limitations of modern LLMs.
- Abstract(参考訳): 創発的言語モデルは意思決定エージェントの知性を忠実にモデル化できるか?
現代の言語モデルは、既に何らかの推論能力を示しており、理論的にはトークン上の確率的な分布を表現できるが、これらの事前学習されたモデルが記憶した世界の知識が、物理的世界におけるエージェントの振る舞いを理解するためにどのように利用されるかは未解明のままである。
この研究は、エージェントの振る舞いとエージェントの相互作用履歴の状態への影響を推論することにより、エージェントのメンタルモデル(エージェント・メンタル・モデリング)がいかにうまく構築できるかを実証的に検証する。
本研究は, eXplainable reinforcement learning (XRL) において重要な課題である, RL エージェントの挙動解明に LLM を活用する可能性を明らかにする。
そこで本研究では, エージェント精神モデル構築に関する知見を報告するとともに, 様々な複雑さのRLタスクデータセットに対して, 特定の評価指標を提案し, テストする。
以上の結果から, LLMは推論だけでは, さらなる革新がなければ, 完全に心的モデリングを行うことができないことが明らかとなった。
この作業は、現代のLLMの能力と限界に関する新たな洞察を提供する。
関連論文リスト
- Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation [25.26545170310844]
本稿では,WMA(World-model-augmented, WMA)Webエージェントを提案する。
WebArenaとMind2Webの実験は、私たちの世界モデルが、トレーニングなしでエージェントのポリシー選択を改善していることを示している。
論文 参考訳(メタデータ) (2024-10-17T05:37:00Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models [4.9108308035618515]
マルチエージェント強化学習(MARL)法はマルチエージェントシステムの非定常性に対処する。
ここでは、大きな言語モデル(LLM)を活用して、これらの課題に対処できる自律エージェントを作成します。
私たちのエージェントである仮説的マインドスは、認知にインスパイアされたアーキテクチャで構成されており、知覚、記憶、階層的な2段階の抽象化計画のためのモジュラーコンポーネントを備えています。
論文 参考訳(メタデータ) (2024-07-09T17:57:15Z) - Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs [22.568925103893182]
我々は、強化学習(RL)と大言語モデル(LLM)を統合することにより、オープンエンドテキストベースの学習環境におけるエージェントの一般化能力の向上を目指す。
PharmaSimTextは、診断会話を実践するために設計された、PharmaSim仮想薬局環境から派生した新しいベンチマークである。
以上の結果から, RLをベースとしたエージェントは, タスク完了に優れるが, 品質診断質問の欠如が示唆された。
論文 参考訳(メタデータ) (2024-04-29T14:53:48Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Computational Experiments Meet Large Language Model Based Agents: A
Survey and Perspective [16.08517740276261]
計算実験は複雑なシステムを研究するための貴重な方法として登場した。
エージェントベースモデリング(ABM)における実際の社会システムを正確に表現することは、人間の多様性と複雑な特性のために困難である。
大規模言語モデル(LLM)の統合が提案され、エージェントが人為的な能力を持つことができる。
論文 参考訳(メタデータ) (2024-02-01T01:17:46Z) - ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。