論文の概要: Distributionally Robust Multi-Task Reinforcement Learning via Adaptive Task Sampling
- arxiv url: http://arxiv.org/abs/2605.14350v1
- Date: Thu, 14 May 2026 04:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.093998
- Title: Distributionally Robust Multi-Task Reinforcement Learning via Adaptive Task Sampling
- Title(参考訳): 適応型タスクサンプリングによる分散ロバストなマルチタスク強化学習
- Authors: Nicholas E. Corrado, Wenyuan Huang, Josiah P. Hanna,
- Abstract要約: マルチタスク強化学習は、複数のタスクにまたがるパフォーマンスを効率的に最適化するために、単一のエージェントを訓練することを目的としている。
すべてのタスクを共同で最適化することは、しばしば不均衡な学習をもたらす:エージェントはすぐに簡単なタスクを解決しますが、より難しいタスクについてゆっくりと学習します。
標準MTRLは、各タスクに同じ数の環境相互作用を割り当て、データを簡単にタスクに過度に割り当てる。
DRATSは、サンプリングタスクが解決されないように適応的に優先順位付けするアルゴリズムである。
- 参考スコア(独自算出の注目度): 11.13427204975652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task reinforcement learning (MTRL) aims to train a single agent to efficiently optimize performance across multiple tasks simultaneously. However, jointly optimizing all tasks often yields imbalanced learning: agents quickly solve easy tasks but learn slowly on harder ones. While prior work primarily attributes this imbalance to conflicting task gradients and proposes gradient manipulation or specialized architectures to address it, we instead focus on a distinct and under-explored challenge: imbalanced data allocation. Standard MTRL allocates an equal number of environment interactions to each task, which over-allocates data to easy tasks that require relatively few interactions to solve and under-allocates data to hard tasks that require substantially more experience to solve. To address this challenge, we introduce Distributionally Robust Adaptive Task Sampling (DRATS), an algorithm that adaptively prioritizes sampling tasks furthest from being solved. We derive DRATS by formalizing MTRL as a feasibility problem from which we derive a minimax objective for minimizing the worst-case return gap, the difference between a desired target return and the agent's return on a task. In benchmarks like MetaWorld-MT10 and MT50, DRATS improves data efficiency and increases worst-task performance compared to existing task sampling algorithms.
- Abstract(参考訳): マルチタスク強化学習(MTRL)は、複数のタスクにまたがるパフォーマンスを効率的に最適化するために単一のエージェントを訓練することを目的としている。
しかし、全てのタスクを共同で最適化することは、しばしば不均衡な学習をもたらす。
以前の作業は、主に、この不均衡を、相反するタスク勾配に起因し、それに対応するための勾配操作や特殊なアーキテクチャを提案していますが、代わりに、明確な、未調査の課題である、不均衡なデータアロケーションに焦点を合わせています。
標準MTRLは、各タスクに同じ数の環境相互作用を割り当て、そのタスクは、比較的少ない相互作用を必要とする簡単なタスクにデータを過度に割り当て、また、解決する経験がかなり必要となるハードタスクにデータをアンダーアロケーションする。
この課題に対処するために、我々は、サンプリングタスクを適応的に優先順位付けするアルゴリズムであるDistributedally Robust Adaptive Task Sampling (DRATS)を導入する。
我々は,最短ケースのリターンギャップ,所望の目標リターンとタスクに対するエージェントのリターンの差を最小化するための最小目標を導出する実現可能性問題として,MTRLを形式化し,DRATSを導出する。
MetaWorld-MT10やMT50のようなベンチマークでは、DRATSはデータ効率を改善し、既存のタスクサンプリングアルゴリズムと比較して最悪のタスクパフォーマンスを向上させる。
関連論文リスト
- Robust-Multi-Task Gradient Boosting [6.920276126310231]
マルチタスク学習(MTL)は、タスク間の共有情報を利用して一般化を改善する効果を示す。
本稿では,R-MTGB(Robust-Multi-Task Gradient Boosting)を提案する。
R-MTGBは学習プロセスを3つのブロックに構成する:(1)共有パターンの学習、(2)正規化パラメータを持つ逐次タスクを外れ値と非外れ値に分割、(3)微調整タスク固有の予測器。
論文 参考訳(メタデータ) (2025-07-15T15:31:12Z) - Coreset-Based Task Selection for Sample-Efficient Meta-Reinforcement Learning [1.2952597101899859]
モデル非依存型メタ強化学習(MAML-RL)におけるサンプル効率向上のためのタスク選択の検討
勾配空間におけるタスクの多様性に基づいて,タスクの重み付きサブセットを選択する,コアセットベースのタスク選択手法を提案する。
複数のRLベンチマーク問題にまたがるこの傾向を数値的に検証し,LQRベースラインを越えたタスク選択の利点について考察した。
論文 参考訳(メタデータ) (2025-02-04T14:09:00Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - On-edge Multi-task Transfer Learning: Model and Practice with
Data-driven Task Allocation [20.20889051697198]
マルチタスク・トランスファー・ラーニング(MTL)におけるタスク・アロケーションは,NP完全Knapsack問題の変種であることを示す。
我々は,データ駆動型協調作業割当(DCTA)アプローチを提案し,高い計算効率でTATIMを解く。
我々のDCTAは処理時間の3.24倍を削減し、TATIMを解く際の最先端技術と比較して48.4%の省エネを図っている。
論文 参考訳(メタデータ) (2021-07-06T08:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。