論文の概要: SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks
- arxiv url: http://arxiv.org/abs/2410.16024v2
- Date: Wed, 05 Mar 2025 16:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:49:28.202003
- Title: SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks
- Title(参考訳): SMAC-R1: 意思決定タスクにおけるインテリジェンスの発生
- Authors: Yue Deng, Weiyu Ma, Yuxin Fan, Ruyi Song, Yin Zhang, Haifeng Zhang, Jian Zhao,
- Abstract要約: 本稿では,DeepSeek-Coder-v2.5-236Bから抽出したQwen2.5-7B-Base LLMに基づくSMAC-R1を紹介する。
オフライン学習プロセスにおける行動クローン後のオンライン強化学習と同様に、私たちのパイプラインでは、エージェントがDeepSeek LLMを利用して決定ツリーコードを生成する。
従来の23のSMACタスクと10の新たに設計されたタスクで実験を行い、提案手法が高品質で解釈可能な決定木を作成できることを実証した。
- 参考スコア(独自算出の注目度): 8.05369449863086
- License:
- Abstract: StarCraft Multi-Agent Challenge (SMAC) has been one of the most commonly used experimental environments in multi-agent reinforcement learning (MARL), where the specific task is to control a set number of allied units to defeat enemy forces. Traditional MARL algorithms often require interacting with the environment for millions of steps to train a parametric model, of which the resulting policies are typically non-interpretable with weak transferability. In this paper, we introduce SMAC-R1 which is based on the Qwen2.5-7B-Base LLM distilled from DeepSeek-Coder-v2.5-236B. Similar to online reinforcement learning after behavior cloning in offline learning process, in our pipeline, agents leverage the DeepSeek LLM to generate decision tree code by providing task descriptions, and the agents are further self-reflected using feedback from the rewards provided by the environment. Based on that, we augment the generated scripts to fine-tune a small LLM, Qwen2.5-7B-Base, to distill the decision-making ability via Supervised Fine-Tuning (SFT) and enhance the script generation ability by the Group Relative Policy Optimization (GRPO) algorithm. We conduct experiments in the original 23 SMAC tasks and 10 newly-designed tasks to demonstrate that our method can produce high-quality, interpretable decision trees with minimal environmental exploration. Moreover, these scripts exhibit strong transferability, successfully applying to homogeneous SMAC environments without modification. We believe this approach offers a new direction for solving decision-making tasks and domain-specific LLM training pipelines in the future.
- Abstract(参考訳): StarCraft Multi-Agent Challenge (SMAC)は、多エージェント強化学習(MARL)において最もよく使われる実験環境の1つであり、特定のタスクは、敵軍を倒すために複数の同盟部隊を制御することである。
従来のMARLアルゴリズムは、パラメトリックモデルをトレーニングするために何百万ステップもの間、環境との相互作用を必要とすることが多い。
本稿では,DeepSeek-Coder-v2.5-236Bから抽出したQwen2.5-7B-Base LLMに基づくSMAC-R1を紹介する。
オフライン学習プロセスにおける行動クローン後のオンライン強化学習と同様に、私たちのパイプラインでは、エージェントがDeepSeek LLMを利用してタスク記述を提供することで決定ツリーコードを生成する。
そこで我々は,小さなLLM(Qwen2.5-7B-Base)を微調整するために生成されたスクリプトを増補し,スーパーバイザード・ファインチューニング(SFT)による意思決定能力を抽出し,グループ相対ポリシー最適化(GRPO)アルゴリズムによりスクリプト生成能力を向上させる。
提案手法は, 環境探索を最小限に抑えつつ, 高品質で解釈可能な決定木を創出できることを実証するために, 当初23のSMACタスクと10の新規に設計されたタスクで実験を行った。
さらに、これらのスクリプトは強い転送可能性を示し、修正することなく均質なSMAC環境に適用することに成功した。
このアプローチは、意思決定タスクとドメイン固有のLLMトレーニングパイプラインを将来的に解決するための、新たな方向を提供する、と私たちは考えています。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - SMAC-Hard: Enabling Mixed Opponent Strategy Script and Self-play on SMAC [19.897956357070697]
トレーニングの堅牢性と評価の包括性を高めるための新しいベンチマークであるSMAC-HARDを提案する。
SMAC-HARDは、カスタマイズ可能な対戦戦略、敵ポリシーのランダム化、MARLのセルフプレイのためのインターフェースをサポートする。
我々は、SMAC-HARD上で広く使われているアルゴリズムと最先端のアルゴリズムを広範囲に評価し、編集・混合戦略相手がもたらす重大な課題を明らかにした。
論文 参考訳(メタデータ) (2024-12-23T16:36:21Z) - EnvBridge: Bridging Diverse Environments with Cross-Environment Knowledge Transfer for Embodied AI [7.040779338576156]
大規模言語モデル(LLM)は、ロボットのためのテキスト計画や制御コードを生成することができる。
これらの手法は、異なる環境にまたがる柔軟性と適用性の観点からも、依然として課題に直面している。
本稿では,ロボット操作エージェントの適応性と堅牢性を高めるために,EnvBridgeを提案する。
論文 参考訳(メタデータ) (2024-10-22T11:52:22Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Breaking Down the Task: A Unit-Grained Hybrid Training Framework for
Vision and Language Decision Making [19.87916700767421]
視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。
環境の観点からは、タスクエピソードはきめ細かいテキストユニットに分けることができる。
本研究では,環境中を活発に探索し,露光バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T11:54:16Z) - Efficient Distributed Framework for Collaborative Multi-Agent
Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。
不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。
本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文 参考訳(メタデータ) (2022-05-11T03:12:49Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。