Fugu-MT 論文翻訳(概要): Improving Policy Optimization with Generalist-Specialist Learning

論文の概要: Improving Policy Optimization with Generalist-Specialist Learning

arxiv url: http://arxiv.org/abs/2206.12984v1
Date: Sun, 26 Jun 2022 22:06:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-29 04:58:36.480061
Title: Improving Policy Optimization with Generalist-Specialist Learning
Title（参考訳）: ジェネラリスト・スペシャリスト学習による政策最適化の改善
Authors: Zhiwei Jia, Xuanlin Li, Zhan Ling, Shuang Liu, Yiran Wu, Hao Su
Abstract要約: 目に見えない環境の変化に対する深い強化学習の一般化は、通常、多種多様な訓練のバリエーションに対する政策学習を必要とする。本稿では,新しいジェネラリスト-スペシャリスト・トレーニング・フレームワークを提案する。具体的には、まず、すべての環境の変化についてジェネラリストを訓練し、改善に失敗すると、ジェネラリストからクローンされた重量を持つ多くのスペシャリストを起動する。このフレームワークは、Procgen、Meta-World、ManiSkillなど、いくつかの挑戦的で人気のあるベンチマークにポリシー学習の封筒を押し付けている。
参考スコア（独自算出の注目度）: 23.480173193633252
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generalization in deep reinforcement learning over unseen environment variations usually requires policy learning over a large set of diverse training variations. We empirically observe that an agent trained on many variations (a generalist) tends to learn faster at the beginning, yet its performance plateaus at a less optimal level for a long time. In contrast, an agent trained only on a few variations (a specialist) can often achieve high returns under a limited computational budget. To have the best of both worlds, we propose a novel generalist-specialist training framework. Specifically, we first train a generalist on all environment variations; when it fails to improve, we launch a large population of specialists with weights cloned from the generalist, each trained to master a selected small subset of variations. We finally resume the training of the generalist with auxiliary rewards induced by demonstrations of all specialists. In particular, we investigate the timing to start specialist training and compare strategies to learn generalists with assistance from specialists. We show that this framework pushes the envelope of policy learning on several challenging and popular benchmarks including Procgen, Meta-World and ManiSkill.
Abstract（参考訳）: 未知の環境変化に対する深い強化学習の一般化は、通常、多種多様なトレーニング変種に対する政策学習を必要とする。実験により,多変量で訓練されたエージェント(ジェネラリスト)は初めから学習が早い傾向にあるが,その性能は長期にわたって最適ではない。対照的に、少数のバリエーション(専門家)にのみ訓練されたエージェントは、限られた計算予算の下で高いリターンを達成することができる。両世界の最善を尽くすため,我々は新しいジェネラリスト・スペシャリスト育成枠組みを提案する。具体的には、まず、すべての環境変動についてジェネラリストを訓練し、改善に失敗すると、ジェネラリストからクローンされた重量を持つ多数のスペシャリストを起動し、それぞれが選択された少数のバリエーションをマスターするように訓練する。最終的に、すべての専門家のデモンストレーションによって引き起こされた補助報酬で将軍の訓練を再開する。特に,スペシャリスト養成の開始時期を考察し,ジェネラリストの学習戦略とスペシャリストの援助とを比較した。このフレームワークは、Procgen、Meta-World、ManiSkillなど、いくつかの挑戦的で人気のあるベンチマークにポリシー学習の封筒を押し付けている。

関連論文リスト

BTS: Harmonizing Specialized Experts into a Generalist LLM [52.026293450944635]
Branch-Train-Stitch (BTS) は、独立に訓練された大規模言語モデル(LLM)の専門家を単一の有能なジェネラリストモデルに統合するための効率的なトレーニングアルゴリズムである。代替モデルのマージアプローチと比較すると、BTSは様々な下流タスクにおいて最高の一般化性能を得る。
論文参考訳（メタデータ） (2025-01-31T07:54:34Z)
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-13T04:57:55Z)
GSL-PCD: Improving Generalist-Specialist Learning with Point Cloud Feature-based Task Partitioning [0.0]
我々は、ポイントクラウド特徴量に基づくタスク分割(GSL-PCD)を用いたジェネリスト-スペシャリスト学習を提案する。当社のアプローチクラスタ環境は,オブジェクトポイントクラウドから抽出した特徴に基づいて変化しており,同じ専門家に類似したバリエーションを割り当てるために,バランスの取れたクラスタリングを使用している。 ManiSkillベンチマークによるロボット操作タスクの評価によると、クラウド機能ベースのパーティショニングはバニラパーティショニングを9.4%上回り、専門家の数は一定であり、計算とサンプルの要求を50%減らして同等のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-11-11T06:03:42Z)
Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。実験では,異なる範囲で4つの目標タスクを評価した。この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文参考訳（メタデータ） (2023-10-23T19:46:48Z)
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-10-18T13:54:15Z)
Guide Your Agent with Adaptive Multimodal Rewards [107.08768813632032]
本研究は、エージェントの一般化能力を高めるための効率的なフレームワークであるアダプティブリターン条件付きポリシー(ARP)を提示する。我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間における視覚観察と自然言語命令の類似性を計算することである。マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。
論文参考訳（メタデータ） (2023-09-19T17:39:20Z)
Generalist: Decoupling Natural and Robust Generalization [14.244311026737666]
本稿では,emph Generalistという2つの専門的なフレームワークを提案し,同時にタスク認識戦略を用いて基礎学習者を訓練する。ジェネラリストは自然例に対して高い精度を達成し、敵例に対してかなりの堅牢性を維持している。
論文参考訳（メタデータ） (2023-03-24T05:24:23Z)
DART: Diversify-Aggregate-Repeat Training Improves Generalization of Neural Networks [39.69378006723682]
ニューラルネットワークの一般化は、それらを現実世界に安全にデプロイするために不可欠である。本研究は,まず,訓練用ミニバッチ内での多彩な拡張を利用した,驚くほど単純だが強力な一般化ベンチマークを確立する。次に、まず、異なる拡張(または領域)を用いて多様なモデルを訓練し、損失流域を探索するダイバーシティ・アグリゲート・リピート・トレーニング(DART)戦略を提案する。学習を通して集約のステップを繰り返すことで、全体的な最適化軌道が向上し、個々のモデルが十分な損失障壁を有して、それらの組み合わせによる一般化が向上することを確認する。
論文参考訳（メタデータ） (2023-02-28T15:54:47Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Learning Meta Representations for Agents in Multi-Agent Reinforcement Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文参考訳（メタデータ） (2021-08-30T04:30:53Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
Adversarial Training for Large Neural Language Models [107.84290922621163]
対戦型事前学習は、一般化と堅牢性の両方を改善することができることを示す。 ALUMは、対向損失を最大化する埋め込み空間に摂動を適用することで、トレーニング目標を正規化する。 ALUMはさらにタスク固有の微調整と組み合わせて追加のゲインを得ることもできる。
論文参考訳（メタデータ） (2020-04-20T00:07:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。