論文の概要: Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2305.10865v2
- Date: Sat, 30 Sep 2023 08:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:52:48.658788
- Title: Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習における意味的に整列したタスク分解
- Authors: Wenhao Li, Dan Qiao, Baoxiang Wang, Xiangfeng Wang, Bo Jin and
Hongyuan Zha
- Abstract要約: 我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
- 参考スコア(独自算出の注目度): 56.26889258704261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The difficulty of appropriately assigning credit is particularly heightened
in cooperative MARL with sparse reward, due to the concurrent time and
structural scales involved. Automatic subgoal generation (ASG) has recently
emerged as a viable MARL approach inspired by utilizing subgoals in
intrinsically motivated reinforcement learning. However, end-to-end learning of
complex task planning from sparse rewards without prior knowledge, undoubtedly
requires massive training samples. Moreover, the diversity-promoting nature of
existing ASG methods can lead to the "over-representation" of subgoals,
generating numerous spurious subgoals of limited relevance to the actual task
reward and thus decreasing the sample efficiency of the algorithm. To address
this problem and inspired by the disentangled representation learning, we
propose a novel "disentangled" decision-making method, Semantically Aligned
task decomposition in MARL (SAMA), that prompts pretrained language models with
chain-of-thought that can suggest potential goals, provide suitable goal
decomposition and subgoal allocation as well as self-reflection-based
replanning. Additionally, SAMA incorporates language-grounded RL to train each
agent's subgoal-conditioned policy. SAMA demonstrates considerable advantages
in sample efficiency compared to state-of-the-art ASG methods, as evidenced by
its performance on two challenging sparse-reward tasks, Overcooked and MiniRTS.
- Abstract(参考訳): クレジットを適切に割り当てることの難しさは、時間と構造的スケールが伴うため、より少ない報酬で協調的なMARLにおいて特に高められる。
自動サブゴール生成(ASG)は近年,本質的動機付け強化学習におけるサブゴールの利用にインスパイアされた,実行可能なMARLアプローチとして登場した。
しかし、複雑なタスク計画のエンド・ツー・エンドの学習は、明らかに大量のトレーニングサンプルを必要とする。
さらに、既存のASG手法の多様性を促進させる性質は、サブゴールの「過剰表現」につながり、実際のタスク報酬に限定した多くのスプリアスサブゴールを生成し、アルゴリズムのサンプル効率を低下させる。
そこで本研究では,この課題に対処し,不連続表現学習に着想を得て,marl (sama) におけるタスク分解(semantically aligned task decomposition in marl, 意味的にアレンジされたタスク分解)法を提案する。
さらに、SAMAは言語基底RLを導入し、各エージェントのサブゴール条件のポリシーを訓練する。
SAMAは、OvercookedとMiniRTSという2つの挑戦的なスパースリワードタスクの性能から証明されているように、最先端のASG手法と比較してサンプル効率にかなりの利点がある。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Beyond Any-Shot Adaptation: Predicting Optimization Outcome for Robustness Gains without Extra Pay [46.92143725900031]
本稿では,モデル予測タスクサンプリング(MPTS)を提案し,タスク空間と適応リスクランドスケープの関連性を確立する。
MPTSは、タスクエピソード情報を生成モデルで特徴付け、後部推論からタスク固有の適応リスク値を直接予測する。
MPTSはゼロショット、少数ショット、多ショット学習パラダイムにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-01-19T13:14:53Z) - Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。
学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。
様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。
人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文 参考訳(メタデータ) (2024-06-11T15:49:08Z) - Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。