論文の概要: Online inductive learning from answer sets for efficient reinforcement learning exploration
- arxiv url: http://arxiv.org/abs/2501.07445v1
- Date: Mon, 13 Jan 2025 16:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:21.481492
- Title: Online inductive learning from answer sets for efficient reinforcement learning exploration
- Title(参考訳): 効率的な強化学習探索のための解集合からのオンライン帰納学習
- Authors: Celeste Veronese, Daniele Meli, Alessandro Farinelli,
- Abstract要約: エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
- 参考スコア(独自算出の注目度): 52.03682298194168
- License:
- Abstract: This paper presents a novel approach combining inductive logic programming with reinforcement learning to improve training performance and explainability. We exploit inductive learning of answer set programs from noisy examples to learn a set of logical rules representing an explainable approximation of the agent policy at each batch of experience. We then perform answer set reasoning on the learned rules to guide the exploration of the learning agent at the next batch, without requiring inefficient reward shaping and preserving optimality with soft bias. The entire procedure is conducted during the online execution of the reinforcement learning algorithm. We preliminarily validate the efficacy of our approach by integrating it into the Q-learning algorithm for the Pac-Man scenario in two maps of increasing complexity. Our methodology produces a significant boost in the discounted return achieved by the agent, even in the first batches of training. Moreover, inductive learning does not compromise the computational time required by Q-learning and learned rules quickly converge to an explanation of the agent policy.
- Abstract(参考訳): 本稿では,インダクティブ・ロジック・プログラミングと強化学習を組み合わせた新しい学習手法を提案する。
そこで我々は,ノイズの多い例から解集合プログラムの帰納的学習を利用して,各経験のバッチにおけるエージェントポリシーの説明可能な近似を表す論理規則の集合を学習する。
次に、学習者の探索を次のバッチで導くために、学習ルールに基づいた回答セット推論を行い、非効率な報酬形成やソフトバイアスによる最適性の維持を必要とせず、学習エージェントの探索を誘導する。
本手法は,強化学習アルゴリズムのオンライン実行中に実施される。
Pac-ManシナリオのQ-ラーニングアルゴリズムに組み込むことで,複雑性が増大する2つのマップに本手法の有効性を予め検証した。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
さらに、帰納学習はQ学習に必要な計算時間を損なうことなく、学習ルールはエージェントポリシーの説明に迅速に収束する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Large Language Models can Implement Policy Iteration [18.424558160071808]
In-Context Policy Iterationは、基礎モデルを用いてReinforcement Learning(RL)を実行するアルゴリズムである。
ICPIは、専門家によるデモンストレーションやグラデーションなしでRLタスクを実行することを学ぶ。
ICPIは、RL環境との試行錯誤によってポリシーを導出するプロンプトの内容を反復的に更新する。
論文 参考訳(メタデータ) (2022-10-07T21:18:22Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Interactive Learning from Activity Description [11.068923430996575]
本稿では,要求充足エージェントを言語的に記述することで,要求充足エージェントの訓練を可能にする対話型学習プロトコルを提案する。
我々のプロトコルは、模倣学習(IL)や強化学習(RL)といった従来のアルゴリズムと相補的な優位性を提供する対話型学習アルゴリズムの新しいファミリーを生み出している。
我々は,このプロトコルを実践的に実装し,純粋に言語記述フィードバックを用いた2つの要求充足問題をエージェントに訓練するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-02-13T22:51:11Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。