論文の概要: SMAUG: A Sliding Multidimensional Task Window-Based MARL Framework for
Adaptive Real-Time Subtask Recognition
- arxiv url: http://arxiv.org/abs/2403.01816v1
- Date: Mon, 4 Mar 2024 08:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:37:56.566779
- Title: SMAUG: A Sliding Multidimensional Task Window-Based MARL Framework for
Adaptive Real-Time Subtask Recognition
- Title(参考訳): SMAUG: 適応リアルタイムサブタスク認識のためのスライディング多次元タスクウィンドウベースMARLフレームワーク
- Authors: Wenjing Zhang, Wei Zhang
- Abstract要約: サブタスクベースのマルチエージェント強化学習(MARL)手法により、エージェントは異なるサブタスクに対処する方法を学ぶことができる。
textbfSliding textbfMultidimensional ttextbfAsk window based mtextbfUti-agent reinforcement learnintextbfG framework (SMAUG) を提案する。
StarCraft IIの実験では、SMAUGはすべてのベースラインと比較してパフォーマンス上の優位性を示すだけでなく、より顕著で迅速な報酬の上昇を示す。
- 参考スコア(独自算出の注目度): 11.236363226878975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instead of making behavioral decisions directly from the exponentially
expanding joint observational-action space, subtask-based multi-agent
reinforcement learning (MARL) methods enable agents to learn how to tackle
different subtasks. Most existing subtask-based MARL methods are based on
hierarchical reinforcement learning (HRL). However, these approaches often
limit the number of subtasks, perform subtask recognition periodically, and can
only identify and execute a specific subtask within the predefined fixed time
period, which makes them inflexible and not suitable for diverse and dynamic
scenarios with constantly changing subtasks. To break through above
restrictions, a \textbf{S}liding \textbf{M}ultidimensional t\textbf{A}sk window
based m\textbf{U}ti-agent reinforcement learnin\textbf{G} framework (SMAUG) is
proposed for adaptive real-time subtask recognition. It leverages a sliding
multidimensional task window to extract essential information of subtasks from
trajectory segments concatenated based on observed and predicted trajectories
in varying lengths. An inference network is designed to iteratively predict
future trajectories with the subtask-oriented policy network. Furthermore,
intrinsic motivation rewards are defined to promote subtask exploration and
behavior diversity. SMAUG can be integrated with any Q-learning-based approach.
Experiments on StarCraft II show that SMAUG not only demonstrates performance
superiority in comparison with all baselines but also presents a more prominent
and swift rise in rewards during the initial training stage.
- Abstract(参考訳): 指数関数的に拡大する共同観測行動空間から直接行動決定を行う代わりに、サブタスクベースのマルチエージェント強化学習(MARL)手法により、エージェントは異なるサブタスクに取り組む方法を学ぶことができる。
既存のサブタスクベースのMARL法は階層的強化学習(HRL)に基づいている。
しかしながら、これらのアプローチは、しばしばサブタスクの数を制限し、定期的にサブタスク認識を行い、あらかじめ定義された固定時間内にのみ特定のサブタスクを特定し、実行することができるため、常に変化するサブタスクを持つ多様な動的シナリオには適さない。
上記の制約を打破するために、適応的リアルタイムサブタスク認識のためのm\textbf{U}ti-agent reinforcement learnin\textbf{G} framework(SMAUG)を提案する。
スライディング多次元タスクウィンドウを利用して、様々な長さの観測および予測された軌跡に基づいて連結された軌跡セグメントからサブタスクの必須情報を抽出する。
推論ネットワークは、サブタスク指向のポリシーネットワークで将来の軌道を反復的に予測するように設計されている。
さらに、本質的なモチベーション報酬は、サブタスク探索と行動多様性を促進するために定義される。
SMAUGは任意のQラーニングベースのアプローチと統合できる。
StarCraft IIの実験では、SMAUGは全てのベースラインと比較してパフォーマンス上の優位性を示すだけでなく、最初のトレーニング段階でより顕著で迅速な報酬の上昇を示す。
関連論文リスト
- Identifying Selections for Unsupervised Subtask Discovery [12.22188797558089]
我々は、データ中の選択変数の存在を識別し、検証する理論と実験を提供する。
これらの選択はサブタスクとガイドポリシーを示すサブゴールとして機能する。
このアイデアを踏まえて、これらのサブゴールを学習し、意味のある振る舞いパターンをサブタスクとして抽出するシーケンシャルな非負行列分解法(seq-NMF)を開発した。
論文 参考訳(メタデータ) (2024-10-28T23:47:43Z) - TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems [21.312052922118585]
時間的関係抽出(TRE)は、出来事や行動の進化を把握し、関連するタスクのワークフローを形成することを目的としている。
本稿では,TRE(TemPrompt)のためのマルチタスク・プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T01:52:37Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。