論文の概要: Robust Subtask Learning for Compositional Generalization
- arxiv url: http://arxiv.org/abs/2302.02984v2
- Date: Thu, 8 Jun 2023 17:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 19:42:04.515462
- Title: Robust Subtask Learning for Compositional Generalization
- Title(参考訳): 構成一般化のためのロバストサブタスク学習
- Authors: Kishor Jothimurugan, Steve Hsu, Osbert Bastani and Rajeev Alur
- Abstract要約: 我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。
我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
- 参考スコア(独自算出の注目度): 20.54144051436337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional reinforcement learning is a promising approach for training
policies to perform complex long-horizon tasks. Typically, a high-level task is
decomposed into a sequence of subtasks and a separate policy is trained to
perform each subtask. In this paper, we focus on the problem of training
subtask policies in a way that they can be used to perform any task; here, a
task is given by a sequence of subtasks. We aim to maximize the worst-case
performance over all tasks as opposed to the average-case performance. We
formulate the problem as a two agent zero-sum game in which the adversary picks
the sequence of subtasks. We propose two RL algorithms to solve this game: one
is an adaptation of existing multi-agent RL algorithms to our setting and the
other is an asynchronous version which enables parallel training of subtask
policies. We evaluate our approach on two multi-task environments with
continuous states and actions and demonstrate that our algorithms outperform
state-of-the-art baselines.
- Abstract(参考訳): 構成強化学習は、複雑なロングホリゾンタスクを実行するためのトレーニングポリシーに有望なアプローチである。
通常、ハイレベルなタスクはサブタスクのシーケンスに分解され、個別のポリシーが各サブタスクを実行するために訓練される。
本稿では,任意のタスクの実行に使用できるように,サブタスクポリシをトレーニングする問題に焦点を当てる。
私たちは、平均的なケースパフォーマンスとは対照的に、すべてのタスクで最悪のパフォーマンスを最大化することを目指している。
敵がサブタスクの列を選択する2つのエージェントゼロサムゲームとして問題を定式化する。
本稿では,この問題を解決するための2つのRLアルゴリズムを提案する。1つは既存のマルチエージェントRLアルゴリズムを我々の設定に適応させ,もう1つはサブタスクポリシーの並列トレーニングを可能にする非同期バージョンである。
我々は,連続状態と動作を持つ2つのマルチタスク環境における我々のアプローチを評価し,アルゴリズムが最先端のベースラインを上回ることを実証する。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition [11.998708550268978]
本稿では,タスクをよりシンプルなマルチエージェントサブタスクに分解する手法を提案する。
各サブタスクでは、チーム全体のサブセットが、サブタスク固有のポリシを取得するようにトレーニングされる。
サブチームはマージされ、ターゲットタスクに転送される。そこでは、そのポリシーは、より複雑なターゲットタスクを解決するために、まとめて微調整される。
論文 参考訳(メタデータ) (2023-02-09T21:24:56Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Efficiently Identifying Task Groupings for Multi-Task Learning [55.80489920205404]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
マルチタスク学習モデルにおいて、どのタスクを一緒にトレーニングすべきかを選択するアプローチを提案する。
本手法は,全タスクを協調学習し,タスクの勾配が他のタスクの損失に影響を及ぼす影響を定量化する。
論文 参考訳(メタデータ) (2021-09-10T02:01:43Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。