論文の概要: Robust Knowledge Transfer in Tiered Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.05534v3
- Date: Thu, 13 Jun 2024 14:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-15 02:38:50.665831
- Title: Robust Knowledge Transfer in Tiered Reinforcement Learning
- Title(参考訳): 強化学習におけるロバストな知識伝達
- Authors: Jiawei Huang, Niao He,
- Abstract要約: そこでは,低層(ソース)タスクから高層(ターゲット)タスクに知識を移すことが目的である。
以前の作業とは異なり、低層タスクと高層タスクは同じダイナミクスや報酬関数を共有していないと仮定する。
本稿では,タスクの類似性に応じて部分的状態に一定の後悔が生じるような,新しいオンライン学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.303882476904295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the Tiered Reinforcement Learning setting, a parallel transfer learning framework, where the goal is to transfer knowledge from the low-tier (source) task to the high-tier (target) task to reduce the exploration risk of the latter while solving the two tasks in parallel. Unlike previous work, we do not assume the low-tier and high-tier tasks share the same dynamics or reward functions, and focus on robust knowledge transfer without prior knowledge on the task similarity. We identify a natural and necessary condition called the ``Optimal Value Dominance'' for our objective. Under this condition, we propose novel online learning algorithms such that, for the high-tier task, it can achieve constant regret on partial states depending on the task similarity and retain near-optimal regret when the two tasks are dissimilar, while for the low-tier task, it can keep near-optimal without making sacrifice. Moreover, we further study the setting with multiple low-tier tasks, and propose a novel transfer source selection mechanism, which can ensemble the information from all low-tier tasks and allow provable benefits on a much larger state-action space.
- Abstract(参考訳): 本稿では,低層(ソース)タスクから高層(ターゲット)タスクへの知識伝達を目標とする並列移動学習フレームワークであるTiered Reinforcement Learning Setについて検討し,その2つのタスクを並列に解決しながら,後者の探索リスクを低減する。
従来の作業とは異なり、低層タスクと高層タスクは同じダイナミクスや報酬関数を共有していないと仮定し、タスクの類似性に関する事前の知識を使わずに、堅牢な知識伝達に注力する。
我々は,「最適価値支配」と呼ばれる自然で必要な条件を特定した。
この条件下では、ハイレベルタスクでは、タスクの類似性に応じて部分的状態に絶え間なく後悔し、2つのタスクが相違する場合には、ほぼ最適の後悔を保ち、低レベルタスクでは犠牲を省くことなく、ほぼ最適に維持できるような、新しいオンライン学習アルゴリズムを提案する。
さらに、複数の低層タスクで設定を更に研究し、全ての低層タスクから情報をアンサンブルし、より大きな状態-動作空間で証明可能な利点を享受できる新しい転送ソース選択機構を提案する。
関連論文リスト
- Continual Deep Reinforcement Learning with Task-Agnostic Policy Distillation [0.0]
TAPD(Task-Agnostic Policy Distillation)フレームワークが導入されている。
本稿では,継続学習の問題に対処する。
タスク非依存の蒸留知識を利用することで、下流タスクをより効率的に解決することができる。
論文 参考訳(メタデータ) (2024-11-25T16:18:39Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Understanding the Transferability of Representations via Task-Relatedness [8.425690424016986]
本稿では,事前学習したモデルの下流タスクへの表現の伝達可能性について,その参照タスクとの関連性の観点から分析する。
最先端の事前学習モデルを用いた実験は、様々な視覚や言語タスクにおける伝達可能性の説明におけるタスク関連性の有効性を示す。
論文 参考訳(メタデータ) (2023-07-03T08:06:22Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Transferring Knowledge for Reinforcement Learning in Contact-Rich
Manipulation [10.219833196479142]
複数のスキルの前提を活かして、類似したタスクのファミリー内で知識を伝達するという課題に対処する。
提案手法は, 先行タスク毎の実証軌道から, スキル埋め込みを表す潜在行動空間を学習する。
我々は,ペグ・イン・ホール・イン・イン・イン・イン・イン・イン・イン・イン・イン・インサート・タスクのセットを用いて本手法の評価を行い,トレーニング中に遭遇したことのない新しいタスクへのより良い一般化を実証した。
論文 参考訳(メタデータ) (2022-09-19T10:31:13Z) - A Unified Meta-Learning Framework for Dynamic Transfer Learning [42.34180707803632]
動的タスクにおける知識伝達可能性のモデリングのための汎用メタ学習フレームワークL2Eを提案する。
L2E は,(1) 動的タスク間の効果的な知識伝達可能性,(2) 新しい目標タスクへの迅速な適応,(3) 歴史的目標タスクに対する破滅的な忘れの軽減,(4) 既存の静的移動学習アルゴリズムを取り入れた柔軟性,といった特性を享受している。
論文 参考訳(メタデータ) (2022-07-05T02:56:38Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Measuring and Harnessing Transference in Multi-Task Learning [58.48659733262734]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
情報伝達や伝達のダイナミクスを、トレーニングを通して分析する。
論文 参考訳(メタデータ) (2020-10-29T08:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。