論文の概要: Energy-Based Transfer for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.16590v1
- Date: Thu, 19 Jun 2025 20:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.249051
- Title: Energy-Based Transfer for Reinforcement Learning
- Title(参考訳): 強化学習のためのエネルギーベーストランスファー
- Authors: Zeyun Deng, Jasorsi Ghosh, Fiona Xie, Yuzhe Lu, Katia Sycara, Joseph Campbell,
- Abstract要約: 強化学習アルゴリズムは、しばしばサンプル効率の低下に悩まされる。
そこで本研究では,配電系統外検出を用いて誘導を選択的に発行するエネルギーに基づく伝達学習手法を提案する。
- 参考スコア(独自算出の注目度): 3.731813802304468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms often suffer from poor sample efficiency, making them challenging to apply in multi-task or continual learning settings. Efficiency can be improved by transferring knowledge from a previously trained teacher policy to guide exploration in new but related tasks. However, if the new task sufficiently differs from the teacher's training task, the transferred guidance may be sub-optimal and bias exploration toward low-reward behaviors. We propose an energy-based transfer learning method that uses out-of-distribution detection to selectively issue guidance, enabling the teacher to intervene only in states within its training distribution. We theoretically show that energy scores reflect the teacher's state-visitation density and empirically demonstrate improved sample efficiency and performance across both single-task and multi-task settings.
- Abstract(参考訳): 強化学習アルゴリズムはサンプル効率の低下に悩まされることが多く、マルチタスクや連続的な学習環境に適用することは困難である。
従来の教師の方針から知識を移譲して、新しいが関連する課題の探索を指導することで、効率を向上させることができる。
しかし,新たな課題が教師の訓練課題と十分に異なる場合,転向指導は,低次行動に対する準最適・偏見探索である可能性がある。
本研究では,教師がトレーニング分布内の状態にのみ介入できるように,配当外検出を用いて指導を選択的に発行するエネルギーベースの伝達学習手法を提案する。
理論的には,教師の視線密度を反映したエネルギースコアが示され,シングルタスクとマルチタスクの両方において,サンプル効率と性能が向上したことを実証的に示す。
関連論文リスト
- Unprejudiced Training Auxiliary Tasks Makes Primary Better: A Multi-Task Learning Perspective [55.531894882776726]
マルチタスク学習方法は、補助的なタスクを使用して、特定の一次タスク上でのニューラルネットワークのパフォーマンスを高めることを推奨する。
以前の方法では、しばしば補助的なタスクを慎重に選択するが、訓練中に二次的なものとして扱う。
本研究では,不確実性に基づく公平な学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-27T09:27:18Z) - Auxiliary Reward Generation with Transition Distance Representation
Learning [20.150691753213817]
強化学習(RL)は、逐次意思決定問題に挑戦する上で、その強みを示している。
RLの報酬関数は、タスク完了度合いの尺度として機能するため、学習性能に不可欠である。
状態間の遷移距離を計測できる新しい表現学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-12T05:13:44Z) - Distill Knowledge in Multi-task Reinforcement Learning with
Optimal-Transport Regularization [0.24475591916185496]
マルチタスク強化学習では、他の異なるタスクから知識を伝達することで、トレーニングエージェントのデータ効率を向上させることができる。
伝統的な手法は、あるタスクから他のタスクへの知識の移動を安定化するために、Kulback-Leibler正規化に依存している。
本研究では,Kulback-Leiblerの発散を,新しいトランスポートベース正規化に置き換える方向について検討する。
論文 参考訳(メタデータ) (2023-09-27T12:06:34Z) - Introspective Action Advising for Interpretable Transfer Learning [7.673465837624365]
伝達学習は、目標タスクにおける政策の訓練を加速するために、深層強化学習に適用することができる。
本稿では,教師が目標課題における生徒の探索を積極的に指導する,行動アドバイスに基づく課題間での学習を伝達するための代替手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T14:53:33Z) - Efficient Multi-Task and Transfer Reinforcement Learning with
Parameter-Compositional Framework [44.43196786555784]
強化学習環境におけるマルチタスク学習の改善と伝達に活用する可能性について検討する。
本稿ではパラメータ合成式を用いた転送手法を提案する。
実験により,提案手法はマルチタスク学習段階における性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-02T18:00:33Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - REPAINT: Knowledge Transfer in Deep Reinforcement Learning [13.36223726517518]
本研究では,深層強化学習における知識伝達のためのRePresentation And IN Transfer (REPAINT)アルゴリズムを提案する。
RePAINTは、オンライン学習において、事前訓練された教師ポリシーの表現を伝達するだけでなく、利点に基づく経験選択アプローチを用いて、オフポリティ学習において教師ポリシーに従って収集された有用なサンプルを転送する。
論文 参考訳(メタデータ) (2020-11-24T01:18:32Z) - Measuring and Harnessing Transference in Multi-Task Learning [58.48659733262734]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
情報伝達や伝達のダイナミクスを、トレーニングを通して分析する。
論文 参考訳(メタデータ) (2020-10-29T08:25:43Z) - Point Adversarial Self Mining: A Simple Method for Facial Expression
Recognition [79.75964372862279]
本稿では,表情認識における認識精度を向上させるために,PASM(Point Adversarial Self Mining)を提案する。
PASMは、目標タスクに関連する最も情報性の高い位置を見つけるために、ポイント敵攻撃法と訓練された教師ネットワークを使用する。
適応学習教材の生成と教師/学生の更新を複数回行うことができ、ネットワーク能力が反復的に向上する。
論文 参考訳(メタデータ) (2020-08-26T06:39:24Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。