論文の概要: Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat
- arxiv url: http://arxiv.org/abs/2503.15726v1
- Date: Wed, 19 Mar 2025 22:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.192974
- Title: Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat
- Title(参考訳): 第5版D&DコンバットにおけるLLM制御による強化学習環境
- Authors: Joseph Emmanuel DL Dayo, Michel Onasis S. Ogbinar, Prospero C. Naval Jr,
- Abstract要約: この研究では、より小さなエージェントにDeep Q-Networks(DQN)を採用し、戦略的AI開発のためのテストベッドを作成している。
高度な言語モデルをRLフレームワークに統合し、戦略的意思決定プロセスの強化に成功しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of this study is to design and implement a reinforcement learning (RL) environment using D\&D 5E combat scenarios to challenge smaller RL agents through interaction with a robust adversarial agent controlled by advanced Large Language Models (LLMs) like GPT-4o and LLaMA 3 8B. This research employs Deep Q-Networks (DQN) for the smaller agents, creating a testbed for strategic AI development that also serves as an educational tool by simulating dynamic and unpredictable combat scenarios. We successfully integrated sophisticated language models into the RL framework, enhancing strategic decision-making processes. Our results indicate that while RL agents generally outperform LLM-controlled adversaries in standard metrics, the strategic depth provided by LLMs significantly enhances the overall AI capabilities in this complex, rule-based setting. The novelty of our approach and its implications for mastering intricate environments and developing adaptive strategies are discussed, alongside potential innovations in AI-driven interactive simulations. This paper aims to demonstrate how integrating LLMs can create more robust and adaptable AI systems, providing valuable insights for further research and educational applications.
- Abstract(参考訳): 本研究の目的は,GPT-4o や LLaMA 3 8B のような先進言語モデル (LLM) によって制御される頑健な敵エージェントとの相互作用を通じて,より小さなRLエージェントに挑戦するために,D\&D 5E 戦闘シナリオを用いた強化学習環境(RL) の設計と実装を行うことである。
この研究は、より小さなエージェントにDeep Q-Networks(DQN)を採用し、ダイナミックで予測不可能な戦闘シナリオをシミュレートして教育ツールとしても機能する戦略的AI開発のためのテストベッドを作成する。
高度な言語モデルをRLフレームワークに統合し、戦略的意思決定プロセスの強化に成功しました。
以上の結果から, LLエージェントは, LLMが制御する敵よりも, LLMが提供する戦略的な深度は, この複雑なルールベースの設定において,AI全体の能力を大幅に向上させることが明らかとなった。
複雑な環境を習得し、適応戦略を開発する上での我々のアプローチの斬新さとその意義について、AI駆動のインタラクティブシミュレーションにおける潜在的な革新とともに論じる。
本稿では,LLMを統合することで,より堅牢で適応可能なAIシステムを構築できることを示す。
関連論文リスト
- ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - An Autonomous Network Orchestration Framework Integrating Large Language Models with Continual Reinforcement Learning [13.3347292702828]
本稿では,SemCom対応SAGINのためのARC(Autonomous Reinforcement Coordination)というフレームワークを提案する。
ARCはオーケストレーションを2層に分割し、LLMを高レベルの計画に、RLエージェントを低レベルの意思決定に利用している。
論文 参考訳(メタデータ) (2025-02-22T11:53:34Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Learning Autonomous Code Integration for Math Language Models [30.057052324461534]
本稿では,メタ認知ツール利用決定と進化能力の間の自己強化サイクルを構築するために,構造化探索(E-step)と非政治最適化(M-step)を併用する新しいフレームワークを提案する。
当社の7Bモデルは、MATH500では11%、AIMEでは9.4%、o1のようなCoTでは9.4%改善しています。
論文 参考訳(メタデータ) (2025-02-02T06:32:23Z) - A Survey on Large Language Model-empowered Autonomous Driving [25.963195890376646]
自律運転(AD)技術の開発は、モジュール化とエンドツーエンドの2つの主要な技術的パスに従っている。
本稿では,ADシステムにおける大規模言語モデル(LLM)の適用可能性について,詳細な分析を行う。
LLMベースの人工知能(AGI)がハイレベルADを実現する鍵となるのか?
論文 参考訳(メタデータ) (2024-09-21T15:07:37Z) - Mastering the Digital Art of War: Developing Intelligent Combat Simulation Agents for Wargaming Using Hierarchical Reinforcement Learning [0.0]
対象とする観察抽象化、マルチモデル統合、ハイブリッドAIフレームワーク、階層的な強化学習フレームワークなど、包括的なアプローチを提案する。
線形空間減衰を用いた局所的な観測抽象化は,RL問題を単純化し,計算効率を向上し,従来の大域的観測法よりも優れた有効性を示す。
我々のハイブリッドAIフレームワークは、スクリプトエージェントとRLを同期させ、高レベルの決定にRLを、低レベルのタスクにスクリプトエージェントを活用し、適応性、信頼性、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-08-23T18:50:57Z) - Retrieval-Augmented Hierarchical in-Context Reinforcement Learning and Hindsight Modular Reflections for Task Planning with LLMs [8.55917897789612]
本研究では,大規模言語モデルを対象とした検索言語強化学習(RAHL)を提案する。
RAHLはLLMベースの高レベルポリシーを使用して複雑なタスクをサブタスクに分解する。
その結果, RAHLは5エピソードで9%, 42%, 10%のパフォーマンス向上が達成できた。
論文 参考訳(メタデータ) (2024-08-12T22:40:01Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena [25.865825113847404]
オークションをシミュレートする新しい評価スイートであるAucArenaを紹介する。
我々は,最先端の大規模言語モデル(LLM)を用いて,入札エージェントによる計画と実行スキルのベンチマークを行う制御実験を行う。
論文 参考訳(メタデータ) (2023-10-09T14:22:09Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [84.31119464141631]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。