論文の概要: A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models
- arxiv url: http://arxiv.org/abs/2410.16024v1
- Date: Mon, 21 Oct 2024 13:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:34.145435
- Title: A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models
- Title(参考訳): SMACタスクの解法:大規模言語モデルから決定木コードを生成する
- Authors: Yue Deng, Weiyu Ma, Yuxin Fan, Yin Zhang, Haifeng Zhang, Jian Zhao,
- Abstract要約: StarCraft Multi-Agent Challenge (SMAC)は、マルチエージェント強化学習(MARL)において最もよく使われる実験環境の1つである。
従来のMARLアルゴリズムは、モデルをトレーニングするために最大100万ステップの環境と対話する必要があることが多い。
本稿では,LLM-SMACと呼ばれるSMACタスクの解法を提案する。
- 参考スコア(独自算出の注目度): 8.457552813123597
- License:
- Abstract: StarCraft Multi-Agent Challenge (SMAC) is one of the most commonly used experimental environments in multi-agent reinforcement learning (MARL), where the specific task is to control a set number of allied units to defeat enemy forces. Traditional MARL algorithms often require interacting with the environment for up to 1 million steps to train a model, and the resulting policies are typically non-interpretable with weak transferability. In this paper, we propose a novel approach to solving SMAC tasks called LLM-SMAC. In our framework, agents leverage large language models (LLMs) to generate decision tree code by providing task descriptions. The model is further self-reflection using feedback from the rewards provided by the environment. We conduct experiments in the SMAC and demonstrate that our method can produce high-quality, interpretable decision trees with minimal environmental exploration. Moreover, these models exhibit strong transferability, successfully applying to similar SMAC environments without modification. We believe this approach offers a new direction for solving decision-making tasks in the future.
- Abstract(参考訳): スタークラフト・マルチエージェント・チャレンジ(StarCraft Multi-Agent Challenge、SMAC)は、多エージェント強化学習(MARL)において最もよく使われる実験環境の1つであり、特定のタスクは、敵軍を倒すために複数の同盟部隊を制御することである。
従来のMARLアルゴリズムは、モデルをトレーニングするために最大100万ステップの環境との相互作用を必要とすることが多く、その結果のポリシーは通常、弱い転送可能性で解釈できない。
本稿では,LLM-SMACと呼ばれるSMACタスクの解法を提案する。
本フレームワークでは,大規模言語モデル(LLM)を活用し,タスク記述を提供することで決定木コードを生成する。
モデルはさらに自己回帰的であり、環境が提供する報酬からのフィードバックを使っています。
我々は,SMAC実験を行い,環境探索を最小限に抑え,高品質で解釈可能な決定木を創出できることを実証した。
さらに、これらのモデルは強い伝達性を示し、修正することなく類似のSMAC環境に適用することができる。
このアプローチは、将来的な意思決定タスクの解決に新たな方向を提供する、と私たちは考えています。
関連論文リスト
- EnvBridge: Bridging Diverse Environments with Cross-Environment Knowledge Transfer for Embodied AI [7.040779338576156]
大規模言語モデル(LLM)は、ロボットのためのテキスト計画や制御コードを生成することができる。
これらの手法は、異なる環境にまたがる柔軟性と適用性の観点からも、依然として課題に直面している。
本稿では,ロボット操作エージェントの適応性と堅牢性を高めるために,EnvBridgeを提案する。
論文 参考訳(メタデータ) (2024-10-22T11:52:22Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Breaking Down the Task: A Unit-Grained Hybrid Training Framework for
Vision and Language Decision Making [19.87916700767421]
視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。
環境の観点からは、タスクエピソードはきめ細かいテキストユニットに分けることができる。
本研究では,環境中を活発に探索し,露光バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T11:54:16Z) - Efficient Distributed Framework for Collaborative Multi-Agent
Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。
不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。
本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文 参考訳(メタデータ) (2022-05-11T03:12:49Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Divergence-Regularized Multi-Agent Actor-Critic [17.995905582226467]
我々は、分散正規化マルチエージェント・アクター・クリティック(DMAC)という、政治以外の新しい協調型MARLフレームワークを提案する。
DMACはフレキシブルなフレームワークであり、既存のMARLアルゴリズムと組み合わせることができる。
DMACは既存のMARLアルゴリズムの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-10-01T10:27:42Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。