論文の概要: Automaton Distillation: Neuro-Symbolic Transfer Learning for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.19137v2
- Date: Thu, 07 Nov 2024 23:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:00.524807
- Title: Automaton Distillation: Neuro-Symbolic Transfer Learning for Deep Reinforcement Learning
- Title(参考訳): オートマトン蒸留 : 深部強化学習のためのニューロ・シンボリックトランスファー学習
- Authors: Suraj Singireddy, Precious Nwaorgu, Andre Beckus, Aden McKinney, Chinwendu Enyioha, Sumit Kumar Jha, George K. Atia, Alvaro Velasquez,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定プロセスにおいて最適なポリシーを見つけるための強力なツールである。
実践的なRL問題に必要とされるエージェントエクスペリエンスの収集は違法にコストがかかり、学習されたポリシーはトレーニングデータ分布外のタスクに対する一般化が不十分である。
本稿では,教師からのQ値推定を,オートマトンという形で低次元の表現に蒸留する,ニューロシンボリック・トランスファー学習の形式であるオートマトン蒸留を導入する。
- 参考スコア(独自算出の注目度): 16.275340669943716
- License:
- Abstract: Reinforcement learning (RL) is a powerful tool for finding optimal policies in sequential decision processes. However, deep RL methods have two weaknesses: collecting the amount of agent experience required for practical RL problems is prohibitively expensive, and the learned policies exhibit poor generalization on tasks outside the training data distribution. To mitigate these issues, we introduce automaton distillation, a form of neuro-symbolic transfer learning in which Q-value estimates from a teacher are distilled into a low-dimensional representation in the form of an automaton. We then propose methods for generating Q-value estimates where symbolic information is extracted from a teacher's Deep Q-Network (DQN). The resulting Q-value estimates are used to bootstrap learning in the target discrete and continuous environment via a modified DQN and Twin-Delayed Deep Deterministic (TD3) loss function, respectively. We demonstrate that automaton distillation decreases the time required to find optimal policies for various decision tasks in new environments, even in a target environment different in structure from the source environment.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定プロセスにおいて最適なポリシーを見つけるための強力なツールである。
しかし、深層RL法には2つの弱点がある: 実用的RL問題に必要なエージェント経験の収集は違法に高価であり、学習方針はトレーニングデータ分布外のタスクに対する一般化が不十分である。
これらの問題を緩和するために,教師からのQ値推定をオートマトン形式で低次元表現に蒸留する,ニューロシンボリックトランスファーラーニングの形式であるオートマトン蒸留を導入する。
次に,教師のDeep Q-Network (DQN) からシンボル情報を抽出するQ値推定手法を提案する。
得られたQ値の推定値は、それぞれ修正DQNとTwin-Delayed Deep Deterministic(TD3)損失関数を介して、ターゲットの離散環境と連続環境の学習をブートストラップするために使用される。
提案手法は, ソース環境と構造が異なるターゲット環境においても, 新しい環境において, 様々な意思決定タスクに対する最適ポリシーを見つけるのに必要な時間を短縮することを示す。
関連論文リスト
- Towards Adapting Reinforcement Learning Agents to New Tasks: Insights from Q-Values [8.694989771294013]
ポリシー勾配メソッドは、サンプル効率のよい方法でそれらを活用する方法に悩まされる限り、多くのドメインで有用です。
我々は、強化学習におけるDQNのカオス的な性質を探求し、トレーニング時に保持する情報を、異なるタスクにモデルを適用するためにどのように再利用するかを理解した。
論文 参考訳(メタデータ) (2024-07-14T21:28:27Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - Gradient-Based Automated Iterative Recovery for Parameter-Efficient
Tuning [11.124310650599146]
我々はTracInを用いてパラメータ効率チューニング(PET)設定におけるモデル性能を改善する。
モデル性能を改善するために,勾配に基づく説明可能性技術を用いた新しい手法を開発した。
論文 参考訳(メタデータ) (2023-02-13T18:54:58Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Induction and Exploitation of Subgoal Automata for Reinforcement
Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文 参考訳(メタデータ) (2020-09-08T16:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。