論文の概要: Meta Generative Flow Networks with Personalization for Task-Specific
Adaptation
- arxiv url: http://arxiv.org/abs/2306.09742v1
- Date: Fri, 16 Jun 2023 10:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:20:03.257399
- Title: Meta Generative Flow Networks with Personalization for Task-Specific
Adaptation
- Title(参考訳): タスク特化適応のためのパーソナライズによるメタ生成フローネットワーク
- Authors: Xinyuan Ji, Xu Zhang, Wei Xi, Haozhi Wang, Olga Gadyatskaya, Yinchuan
Li
- Abstract要約: マルチタスク強化学習とメタ強化学習は、より高い報酬とより頻繁な出来事を伴うタスクに焦点を当てる傾向がある。
GFlowNetsは、低報酬のタスクでGFlowNetsの利点を活用することで、メタ学習アルゴリズム(GFlowMeta)に統合することができる。
本稿では、タスク固有のパーソナライズされたポリシーとメタポリシーを組み合わせた、pGFlowMetaというパーソナライズされたアプローチを提案する。
- 参考スコア(独自算出の注目度): 8.830531142309733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task reinforcement learning and meta-reinforcement learning have been
developed to quickly adapt to new tasks, but they tend to focus on tasks with
higher rewards and more frequent occurrences, leading to poor performance on
tasks with sparse rewards. To address this issue, GFlowNets can be integrated
into meta-learning algorithms (GFlowMeta) by leveraging the advantages of
GFlowNets on tasks with sparse rewards. However, GFlowMeta suffers from
performance degradation when encountering heterogeneous transitions from
distinct tasks. To overcome this challenge, this paper proposes a personalized
approach named pGFlowMeta, which combines task-specific personalized policies
with a meta policy. Each personalized policy balances the loss on its
personalized task and the difference from the meta policy, while the meta
policy aims to minimize the average loss of all tasks. The theoretical analysis
shows that the algorithm converges at a sublinear rate. Extensive experiments
demonstrate that the proposed algorithm outperforms state-of-the-art
reinforcement learning algorithms in discrete environments.
- Abstract(参考訳): マルチタスク強化学習とメタ強化学習は、新しいタスクに迅速に適応するために開発されたが、より高い報酬とより頻繁な出来事を伴うタスクに集中する傾向があり、低い報酬を持つタスクに対するパフォーマンスが低下する。
この問題に対処するため、GFlowNetsは、低報酬のタスクにおけるGFlowNetsの利点を活用することで、メタ学習アルゴリズム(GFlowMeta)に統合することができる。
しかし、gflowmetaは異なるタスクからの異種遷移に遭遇するとパフォーマンスが低下する。
そこで本研究では,タスク固有のパーソナライズポリシとメタポリシを組み合わせた,pGFlowMetaというパーソナライズされたアプローチを提案する。
それぞれのパーソナライズされたポリシーは、パーソナライズされたタスクの損失とメタポリシーとの差をバランスさせ、メタポリシーは、すべてのタスクの平均損失を最小化することを目指している。
理論的解析は、アルゴリズムがサブ線形速度で収束することを示している。
大規模な実験により,提案アルゴリズムは離散環境下での最先端の強化学習アルゴリズムより優れていることが示された。
関連論文リスト
- Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。
近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。
本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:12:14Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - On the Convergence Theory of Meta Reinforcement Learning with
Personalized Policies [26.225293232912716]
本稿では,メタRL(pMeta-RL)アルゴリズムを提案する。
タスク固有のパーソナライズされたポリシを集約して、すべてのタスクで使用されるメタポリシを更新するとともに、各タスクの平均リターンを最大化するためのパーソナライズされたポリシを維持します。
実験の結果,提案アルゴリズムは,GymおよびMuJoCoスイートにおいて,他のMeta-RLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-21T02:27:56Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Learning to generate imaginary tasks for improving generalization in
meta-learning [12.635773307074022]
既存のベンチマークにおけるメタ学習の成功は、メタトレーニングタスクの分布がメタテストタスクをカバーするという仮定に基づいて予測される。
最近のソリューションではメタトレーニングタスクの強化が追求されているが、正確なタスクと十分な想像上のタスクの両方を生成することは、まだ未解決の問題である。
本稿では,タスクアップサンプリングネットワークを通じてタスク表現からメタ学習タスクをアップサンプリングする手法を提案する。さらに,タスクアップサンプリング(ATU)と呼ばれるアプローチにより,タスクを最大化することで,最新のメタラーナーに最大限貢献できるタスクを生成する。
論文 参考訳(メタデータ) (2022-06-09T08:21:05Z) - Set-based Meta-Interpolation for Few-Task Meta-Learning [79.4236527774689]
そこで本研究では,メタトレーニングタスクの分散化を目的とした,ドメインに依存しないタスク拡張手法Meta-Interpolationを提案する。
様々な領域にまたがる8つのデータセットに対してメタ補間の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2022-05-20T06:53:03Z) - Meta-learning with an Adaptive Task Scheduler [93.63502984214918]
既存のメタ学習アルゴリズムは、一様確率でランダムにメタトレーニングタスクをサンプリングする。
タスクは、限られた数のメタトレーニングタスクを考えると、ノイズや不均衡に有害である可能性が高い。
メタトレーニングプロセスのための適応タスクスケジューラ(ATS)を提案する。
論文 参考訳(メタデータ) (2021-10-26T22:16:35Z) - Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。
タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。
実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-04T20:15:34Z) - Improving Generalization in Meta-learning via Task Augmentation [69.83677015207527]
本稿ではMetaMixとChannel Shuffleの2つのタスク拡張手法を提案する。
MetaMixとChannel Shuffleはどちらも、多くのデータセットにまたがる大きなマージンによって、最先端の結果を上回っている。
論文 参考訳(メタデータ) (2020-07-26T01:50:42Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。