論文の概要: A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models
- arxiv url: http://arxiv.org/abs/2410.16024v1
- Date: Mon, 21 Oct 2024 13:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:38.477
- Title: A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models
- Title(参考訳): SMACタスクの解法:大規模言語モデルから決定木コードを生成する
- Authors: Yue Deng, Weiyu Ma, Yuxin Fan, Yin Zhang, Haifeng Zhang, Jian Zhao,
- Abstract要約: StarCraft Multi-Agent Challenge (SMAC)は、マルチエージェント強化学習(MARL)において最もよく使われる実験環境の1つである。
従来のMARLアルゴリズムは、モデルをトレーニングするために最大100万ステップの環境と対話する必要があることが多い。
本稿では,LLM-SMACと呼ばれるSMACタスクの解法を提案する。
- 参考スコア(独自算出の注目度): 8.457552813123597
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: StarCraft Multi-Agent Challenge (SMAC) is one of the most commonly used experimental environments in multi-agent reinforcement learning (MARL), where the specific task is to control a set number of allied units to defeat enemy forces. Traditional MARL algorithms often require interacting with the environment for up to 1 million steps to train a model, and the resulting policies are typically non-interpretable with weak transferability. In this paper, we propose a novel approach to solving SMAC tasks called LLM-SMAC. In our framework, agents leverage large language models (LLMs) to generate decision tree code by providing task descriptions. The model is further self-reflection using feedback from the rewards provided by the environment. We conduct experiments in the SMAC and demonstrate that our method can produce high-quality, interpretable decision trees with minimal environmental exploration. Moreover, these models exhibit strong transferability, successfully applying to similar SMAC environments without modification. We believe this approach offers a new direction for solving decision-making tasks in the future.
- Abstract(参考訳): スタークラフト・マルチエージェント・チャレンジ(StarCraft Multi-Agent Challenge、SMAC)は、多エージェント強化学習(MARL)において最もよく使われる実験環境の1つであり、特定のタスクは、敵軍を倒すために複数の同盟部隊を制御することである。
従来のMARLアルゴリズムは、モデルをトレーニングするために最大100万ステップの環境との相互作用を必要とすることが多く、その結果のポリシーは通常、弱い転送可能性で解釈できない。
本稿では,LLM-SMACと呼ばれるSMACタスクの解法を提案する。
本フレームワークでは,大規模言語モデル(LLM)を活用し,タスク記述を提供することで決定木コードを生成する。
モデルはさらに自己回帰的であり、環境が提供する報酬からのフィードバックを使っています。
我々は,SMAC実験を行い,環境探索を最小限に抑え,高品質で解釈可能な決定木を創出できることを実証した。
さらに、これらのモデルは強い伝達性を示し、修正することなく類似のSMAC環境に適用することができる。
このアプローチは、将来的な意思決定タスクの解決に新たな方向を提供する、と私たちは考えています。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。
エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。
API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文 参考訳(メタデータ) (2024-11-29T08:47:04Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - EnvBridge: Bridging Diverse Environments with Cross-Environment Knowledge Transfer for Embodied AI [7.040779338576156]
大規模言語モデル(LLM)は、ロボットのためのテキスト計画や制御コードを生成することができる。
これらの手法は、異なる環境にまたがる柔軟性と適用性の観点からも、依然として課題に直面している。
本稿では,ロボット操作エージェントの適応性と堅牢性を高めるために,EnvBridgeを提案する。
論文 参考訳(メタデータ) (2024-10-22T11:52:22Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Breaking Down the Task: A Unit-Grained Hybrid Training Framework for
Vision and Language Decision Making [19.87916700767421]
視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。
環境の観点からは、タスクエピソードはきめ細かいテキストユニットに分けることができる。
本研究では,環境中を活発に探索し,露光バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T11:54:16Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z) - Efficient Distributed Framework for Collaborative Multi-Agent
Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。
不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。
本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文 参考訳(メタデータ) (2022-05-11T03:12:49Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Divergence-Regularized Multi-Agent Actor-Critic [17.995905582226467]
我々は、分散正規化マルチエージェント・アクター・クリティック(DMAC)という、政治以外の新しい協調型MARLフレームワークを提案する。
DMACはフレキシブルなフレームワークであり、既存のMARLアルゴリズムと組み合わせることができる。
DMACは既存のMARLアルゴリズムの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-10-01T10:27:42Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。