Fugu-MT 論文翻訳(概要): Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning

論文の概要: Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.10865v2
Date: Sat, 30 Sep 2023 08:27:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:52:48.658788
Title: Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習における意味的に整列したタスク分解
Authors: Wenhao Li, Dan Qiao, Baoxiang Wang, Xiangfeng Wang, Bo Jin and Hongyuan Zha
Abstract要約: 我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
参考スコア（独自算出の注目度）: 56.26889258704261
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The difficulty of appropriately assigning credit is particularly heightened in cooperative MARL with sparse reward, due to the concurrent time and structural scales involved. Automatic subgoal generation (ASG) has recently emerged as a viable MARL approach inspired by utilizing subgoals in intrinsically motivated reinforcement learning. However, end-to-end learning of complex task planning from sparse rewards without prior knowledge, undoubtedly requires massive training samples. Moreover, the diversity-promoting nature of existing ASG methods can lead to the "over-representation" of subgoals, generating numerous spurious subgoals of limited relevance to the actual task reward and thus decreasing the sample efficiency of the algorithm. To address this problem and inspired by the disentangled representation learning, we propose a novel "disentangled" decision-making method, Semantically Aligned task decomposition in MARL (SAMA), that prompts pretrained language models with chain-of-thought that can suggest potential goals, provide suitable goal decomposition and subgoal allocation as well as self-reflection-based replanning. Additionally, SAMA incorporates language-grounded RL to train each agent's subgoal-conditioned policy. SAMA demonstrates considerable advantages in sample efficiency compared to state-of-the-art ASG methods, as evidenced by its performance on two challenging sparse-reward tasks, Overcooked and MiniRTS.
Abstract（参考訳）: クレジットを適切に割り当てることの難しさは、時間と構造的スケールが伴うため、より少ない報酬で協調的なMARLにおいて特に高められる。自動サブゴール生成(ASG)は近年,本質的動機付け強化学習におけるサブゴールの利用にインスパイアされた,実行可能なMARLアプローチとして登場した。しかし、複雑なタスク計画のエンド・ツー・エンドの学習は、明らかに大量のトレーニングサンプルを必要とする。さらに、既存のASG手法の多様性を促進させる性質は、サブゴールの「過剰表現」につながり、実際のタスク報酬に限定した多くのスプリアスサブゴールを生成し、アルゴリズムのサンプル効率を低下させる。そこで本研究では,この課題に対処し,不連続表現学習に着想を得て,marl (sama) におけるタスク分解(semantically aligned task decomposition in marl, 意味的にアレンジされたタスク分解)法を提案する。さらに、SAMAは言語基底RLを導入し、各エージェントのサブゴール条件のポリシーを訓練する。 SAMAは、OvercookedとMiniRTSという2つの挑戦的なスパースリワードタスクの性能から証明されているように、最先端のASG手法と比較してサンプル効率にかなりの利点がある。

関連論文リスト

Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Efficient Knowledge Transfer in Multi-Task Learning through Task-Adaptive Low-Rank Representation [11.955971931186006]
事前訓練された言語モデルは、現実世界のアプリケーションでトレーニング中に見つからない新しいタスクに苦しむ。本稿では,タスク適応型低ランク表現(TA-LoRA)を提案する。 16のタスクの実験では、TA-LoRAがフルデータおよび少数ショット設定で最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-20T06:33:19Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-16T00:53:41Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Gradual Divergence for Seamless Adaptation: A Novel Domain Incremental Learning Method [19.751735234229972]
ドメイン・インクリメンタル・ラーニング(DIL)は現実世界のシナリオにおいて大きな課題となる。モデルが新しいタスクに適応するにつれて、学習された表現が変化していく現象を模倣する表現ドリフトは、破滅的な忘れを和らげるのに役立つ。本稿では,DAREと呼ばれる新しいDIL手法を提案する。
論文参考訳（メタデータ） (2024-06-23T22:05:52Z)
World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文参考訳（メタデータ） (2024-06-11T15:49:08Z)
Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文参考訳（メタデータ） (2024-05-26T00:24:46Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning [14.677411619418319]
補助的なタスクは、データが乏しい、あるいは焦点の主タスクが極めて複雑である状況での学習を容易にする。 Detauxと呼ばれる新しいフレームワークを提案する。このフレームワークでは,非関連性のある新たな補助的分類タスクを見つけるために,弱い教師付き逆絡手順が使用される。我々は、最も不整合な部分空間上のクラスタリング手順によって補助的な分類タスクを生成し、ラベルの離散的な集合を得る。
論文参考訳（メタデータ） (2023-10-13T17:40:39Z)
Meta-Reinforcement Learning Based on Self-Supervised Task Representation Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。 MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文参考訳（メタデータ） (2023-04-29T15:46:19Z)
Automaton-Guided Curriculum Generation for Reinforcement Learning Agents [14.20447398253189]
Automaton-Guided Curriculum Learning (AGCL) は、DAG(Directed Acyclic Graphs)の形式で、対象タスクのためのカリキュラムを自動生成する新しい方法である。 AGCL は決定論的有限オートマトン (DFA) の形式で仕様を符号化し、DFA とオブジェクト指向 MDP 表現を使ってカリキュラムを DAG として生成する。グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生み出すカリキュラムが時間と閾値のパフォーマンスを向上させることが示されている。
論文参考訳（メタデータ） (2023-04-11T15:14:31Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。