論文の概要: Making Universal Policies Universal
- arxiv url: http://arxiv.org/abs/2502.14777v1
- Date: Thu, 20 Feb 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:39.079250
- Title: Making Universal Policies Universal
- Title(参考訳): ユニバーサルポリシーのユニバーサル化
- Authors: Niklas Höpner, David Kuric, Herke van Hoof,
- Abstract要約: 我々は、政策学習を2つの段階に分離する普遍的な政策枠組みを構築している。
本稿では,すべてのエージェントからのトラジェクトリからなる共同データセット上で,プランナーを訓練する手法を提案する。
複数のエージェントからプールされたデータセットをトレーニングすることで、我々のユニバーサルポリシーはタスク完了精度を最大42.20%向上させることができる。
- 参考スコア(独自算出の注目度): 21.558271405324767
- License:
- Abstract: The development of a generalist agent capable of solving a wide range of sequential decision-making tasks remains a significant challenge. We address this problem in a cross-agent setup where agents share the same observation space but differ in their action spaces. Our approach builds on the universal policy framework, which decouples policy learning into two stages: a diffusion-based planner that generates observation sequences and an inverse dynamics model that assigns actions to these plans. We propose a method for training the planner on a joint dataset composed of trajectories from all agents. This method offers the benefit of positive transfer by pooling data from different agents, while the primary challenge lies in adapting shared plans to each agent's unique constraints. We evaluate our approach on the BabyAI environment, covering tasks of varying complexity, and demonstrate positive transfer across agents. Additionally, we examine the planner's generalisation ability to unseen agents and compare our method to traditional imitation learning approaches. By training on a pooled dataset from multiple agents, our universal policy achieves an improvement of up to $42.20\%$ in task completion accuracy compared to a policy trained on a dataset from a single agent.
- Abstract(参考訳): 広範囲のシーケンシャルな意思決定タスクを解決できるジェネラリストエージェントの開発は、依然として大きな課題である。
エージェントが同一の観測空間を共有するが、動作空間が異なるクロスエージェント設定でこの問題に対処する。
我々のアプローチは,政策学習を2つの段階に分離する普遍的な政策枠組みを基盤として,観測シーケンスを生成する拡散型プランナと,これらの計画にアクションを割り当てる逆ダイナミクスモデルを構築した。
本稿では,すべてのエージェントからのトラジェクトリからなる共同データセット上で,プランナーを訓練する手法を提案する。
この方法は、異なるエージェントからのデータをプールすることで、ポジティブな転送の利点を提供するが、最大の課題は、各エージェントの固有の制約に共有計画を適用することである。
我々は,BabyAI環境に対する我々のアプローチを評価し,様々な複雑さのタスクをカバーし,エージェント間のポジティブな移動を示す。
さらに,提案手法を従来の模倣学習手法と比較した。
複数のエージェントからプールされたデータセットをトレーニングすることで、我々のユニバーサルポリシーは、単一のエージェントからデータセットでトレーニングされたポリシーと比較して、タスク完了の精度が最大42.20\%向上する。
関連論文リスト
- Uniting contrastive and generative learning for event sequences models [51.547576949425604]
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。
いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法が個々の手法と比較して優れた性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-19T13:47:17Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。
訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文 参考訳(メタデータ) (2023-10-25T14:21:22Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。