論文の概要: Learning Policy Committees for Effective Personalization in MDPs with Diverse Tasks
- arxiv url: http://arxiv.org/abs/2503.01885v1
- Date: Wed, 26 Feb 2025 22:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:49.891270
- Title: Learning Policy Committees for Effective Personalization in MDPs with Diverse Tasks
- Title(参考訳): 多様な課題を伴うMDPにおける効果的なパーソナライズのための学習政策委員会
- Authors: Luise Ge, Michael Lanier, Anindya Sarkar, Bengisu Guresti, Yevgeniy Vorobeychik, Chongjie Zhang,
- Abstract要約: 本稿では,実行中に発生するタスクの確率の高い,少なくとも1つの準最適政策を含む政策委員会を学習するための新しいアプローチを提案する。
MuJoCo と Meta-World に関する実験により,提案手法は,訓練,一般化,少数ショット学習において,最先端のマルチタスク,メタ,タスククラスタリングベースラインより優れていることが示された。
- 参考スコア(独自算出の注目度): 40.2989900672992
- License:
- Abstract: Many dynamic decision problems, such as robotic control, involve a series of tasks, many of which are unknown at training time. Typical approaches for these problems, such as multi-task and meta reinforcement learning, do not generalize well when the tasks are diverse. On the other hand, approaches that aim to tackle task diversity, such as using task embedding as policy context and task clustering, typically lack performance guarantees and require a large number of training tasks. To address these challenges, we propose a novel approach for learning a policy committee that includes at least one near-optimal policy with high probability for tasks encountered during execution. While we show that this problem is in general inapproximable, we present two practical algorithmic solutions. The first yields provable approximation and task sample complexity guarantees when tasks are low-dimensional (the best we can do due to inapproximability), whereas the second is a general and practical gradient-based approach. In addition, we provide a provable sample complexity bound for few-shot learning. Our experiments on MuJoCo and Meta-World show that the proposed approach outperforms state-of-the-art multi-task, meta-, and task clustering baselines in training, generalization, and few-shot learning, often by a large margin.
- Abstract(参考訳): ロボット制御のような多くの動的決定問題は一連のタスクを伴い、その多くは訓練時に未知である。
マルチタスクやメタ強化学習のようなこれらの問題に対する典型的なアプローチは、タスクが多様であればうまく一般化しない。
一方、タスク埋め込みをポリシーコンテキストやタスククラスタリングとして使用するなど、タスクの多様性に取り組むためのアプローチでは、パフォーマンス保証が欠如し、多数のトレーニングタスクが必要になる。
これらの課題に対処するため、我々は、実行中に遭遇するタスクの確率の高い、少なくとも1つの準最適政策を含む政策委員会を学習するための新しいアプローチを提案する。
この問題は一般には適用不可能であることが示されるが、2つの実用的なアルゴリズム解が提示される。
第一に証明可能な近似とタスクサンプルの複雑性は、タスクが低次元であるときに保証される(不近似性のためにできる最善策)が、第二に、一般的な、実用的な勾配に基づくアプローチである。
さらに、数ショットの学習に縛られる証明可能なサンプルの複雑さも提供します。
MuJoCo と Meta-World に関する実験により,提案手法は,トレーニング,一般化,少数ショット学習において,最先端のマルチタスク,メタ,タスククラスタリングベースラインを上回っていることが示された。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition [11.998708550268978]
本稿では,タスクをよりシンプルなマルチエージェントサブタスクに分解する手法を提案する。
各サブタスクでは、チーム全体のサブセットが、サブタスク固有のポリシを取得するようにトレーニングされる。
サブチームはマージされ、ターゲットタスクに転送される。そこでは、そのポリシーは、より複雑なターゲットタスクを解決するために、まとめて微調整される。
論文 参考訳(メタデータ) (2023-02-09T21:24:56Z) - Robust Subtask Learning for Compositional Generalization [20.54144051436337]
我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。
我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
論文 参考訳(メタデータ) (2023-02-06T18:19:25Z) - Leveraging convergence behavior to balance conflicting tasks in
multi-task learning [3.6212652499950138]
マルチタスク学習は、パフォーマンスの一般化を改善するために相関タスクを使用する。
タスクは互いに衝突することが多いため、複数のタスクの勾配をどのように組み合わせるべきかを定義するのは難しい。
バックプロパゲーション中の各タスクの重要度を調整する動的バイアスを生成するために,勾配の時間的挙動を考慮した手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T01:52:34Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Efficiently Identifying Task Groupings for Multi-Task Learning [55.80489920205404]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
マルチタスク学習モデルにおいて、どのタスクを一緒にトレーニングすべきかを選択するアプローチを提案する。
本手法は,全タスクを協調学習し,タスクの勾配が他のタスクの損失に影響を及ぼす影響を定量化する。
論文 参考訳(メタデータ) (2021-09-10T02:01:43Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - A Simple General Approach to Balance Task Difficulty in Multi-Task
Learning [4.531240717484252]
マルチタスク学習では、異なるタスクの難易度が異なる。
本稿では,BMTL(Ba balanced Multi-Task Learning)フレームワークを提案する。
提案するBMTLフレームワークは非常にシンプルで、ほとんどのマルチタスク学習モデルと組み合わせることができる。
論文 参考訳(メタデータ) (2020-02-12T04:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。