論文の概要: Fitted Q-Learning for Relational Domains
- arxiv url: http://arxiv.org/abs/2006.05595v1
- Date: Wed, 10 Jun 2020 01:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:23:22.136578
- Title: Fitted Q-Learning for Relational Domains
- Title(参考訳): 関係領域に対する適合Q-Learning
- Authors: Srijita Das, Sriraam Natarajan, Kaushik Roy, Ronald Parr and Kristian
Kersting
- Abstract要約: 本稿では,値関数とベルマン残差を表現したQ-ラーニングアルゴリズムを開発した。
本稿では,Bellman演算子の2つのステップについて述べる。
- 参考スコア(独自算出の注目度): 29.90646258513537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of Approximate Dynamic Programming in relational
domains. Inspired by the success of fitted Q-learning methods in propositional
settings, we develop the first relational fitted Q-learning algorithms by
representing the value function and Bellman residuals. When we fit the
Q-functions, we show how the two steps of Bellman operator; application and
projection steps can be performed using a gradient-boosting technique. Our
proposed framework performs reasonably well on standard domains without using
domain models and using fewer training trajectories.
- Abstract(参考訳): 関係領域における近似動的プログラミングの問題点を考察する。
提案条件下での適合Q-ラーニング手法の成功に触発されて,値関数とベルマン残差を表現した最初の関係適合Q-ラーニングアルゴリズムを開発した。
Q-関数に適合すると、ベルマン作用素の2つのステップ、すなわち、勾配ブースティング手法を用いて、応用と射影のステップが実行可能であることを示す。
提案フレームワークは、ドメインモデルを用いることなく、トレーニングトラジェクトリを少なくすることなく、標準ドメインで合理的に機能する。
関連論文リスト
- Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Convex Q Learning in a Stochastic Environment: Extended Version [1.680268810119084]
本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。
提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。
この理論は古典的な在庫管理問題への応用として説明されている。
論文 参考訳(メタデータ) (2023-09-10T18:24:43Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - A Subgame Perfect Equilibrium Reinforcement Learning Approach to
Time-inconsistent Problems [4.314956204483074]
我々は,時間一貫性(TIC)問題に対するサブゲーム完全均衡強化学習フレームワークを構築した。
我々は,SPERLを解き,両課題に対処する,BPI(backward Policy iteration)と呼ばれるアルゴリズムの新たなクラスを提案する。
トレーニングフレームワークとしてのBPIの実用性を実証するため,標準的なRLシミュレーション手法を適用し,2つのBPIベースのトレーニングアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-10-27T09:21:35Z) - Optimising Rolling Stock Planning including Maintenance with Constraint
Programming and Quantum Annealing [0.0]
ストック割り当て最適化のための制約プログラミング(CP)と量子アニーリング(QA)のアプローチを提案し,比較する。
CPアプローチでは、全微分制約、要素制約の拡張、論理的含意を用いて問題をモデル化する。
QA アプローチでは,2次非制約バイナリ最適化 (QUBO) モデルを開発する。
論文 参考訳(メタデータ) (2021-09-15T11:00:53Z) - A Value-Function-based Interior-point Method for Non-convex Bi-level
Optimization [38.75417864443519]
バイレベル最適化モデルは、実践的な関心を持って、幅広い複雑な学習タスクをキャプチャすることができる。
そこで我々は,下層問題における正規化値関数を上層目標にペナルティ化する,新しい内部Biレベル値に基づく内点法を提案する。
論文 参考訳(メタデータ) (2021-06-15T09:10:40Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Solving optimal stopping problems with Deep Q-Learning [0.0]
オプション型製品の最適な運動戦略をモデル化する強化学習(RL)手法を提案する。
基本関数の仕様を必要としない深層ニューラルネットワークを用いてQ関数を近似する。
我々は、トレーニングされたニューラルネットワークから得られるオプション価格と、停止問題の2つの定式化から得られる上限を低くする。
論文 参考訳(メタデータ) (2021-01-24T10:05:46Z) - Planning with Submodular Objective Functions [118.0376288522372]
準モジュラー目的関数を用いて計画を行い、累積報酬を最大化する代わりに、劣モジュラー関数によって誘導される値の最大化を目標とする。
本フレームワークは, 基本性制約を特別な場合として, 標準計画と準モジュラー目標を仮定する。
論文 参考訳(メタデータ) (2020-10-22T16:55:12Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。