論文の概要: Fitted Q-Learning for Relational Domains
- arxiv url: http://arxiv.org/abs/2006.05595v1
- Date: Wed, 10 Jun 2020 01:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:23:22.136578
- Title: Fitted Q-Learning for Relational Domains
- Title(参考訳): 関係領域に対する適合Q-Learning
- Authors: Srijita Das, Sriraam Natarajan, Kaushik Roy, Ronald Parr and Kristian
Kersting
- Abstract要約: 本稿では,値関数とベルマン残差を表現したQ-ラーニングアルゴリズムを開発した。
本稿では,Bellman演算子の2つのステップについて述べる。
- 参考スコア(独自算出の注目度): 29.90646258513537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of Approximate Dynamic Programming in relational
domains. Inspired by the success of fitted Q-learning methods in propositional
settings, we develop the first relational fitted Q-learning algorithms by
representing the value function and Bellman residuals. When we fit the
Q-functions, we show how the two steps of Bellman operator; application and
projection steps can be performed using a gradient-boosting technique. Our
proposed framework performs reasonably well on standard domains without using
domain models and using fewer training trajectories.
- Abstract(参考訳): 関係領域における近似動的プログラミングの問題点を考察する。
提案条件下での適合Q-ラーニング手法の成功に触発されて,値関数とベルマン残差を表現した最初の関係適合Q-ラーニングアルゴリズムを開発した。
Q-関数に適合すると、ベルマン作用素の2つのステップ、すなわち、勾配ブースティング手法を用いて、応用と射影のステップが実行可能であることを示す。
提案フレームワークは、ドメインモデルを用いることなく、トレーニングトラジェクトリを少なくすることなく、標準ドメインで合理的に機能する。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Trainability maximization using estimation of distribution algorithms assisted by surrogate modelling for quantum architecture search [8.226785409557598]
量子アーキテクチャサーチ(QAS)は、量子パラメトリック回路の構成を最適化するだけでなく、変分量子アルゴリズムのパラメータも最適化する。
本稿では,(1)粗悪な性能のアーキテクチャを積極的に破棄する評価プロセスのオンラインサロゲートモデルによる測定数を削減し,(2)BPが存在する場合の回路のトレーニングを避けることを目的とした。
我々は、変分量子固有解法の提案を実験的に検証し、我々のアルゴリズムがハミルトニアンの文献でこれまで提案されていた解を見つけることができることを示した。
論文 参考訳(メタデータ) (2024-07-29T15:22:39Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Convex Q Learning in a Stochastic Environment: Extended Version [1.680268810119084]
本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。
提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。
この理論は古典的な在庫管理問題への応用として説明されている。
論文 参考訳(メタデータ) (2023-09-10T18:24:43Z) - Optimising Rolling Stock Planning including Maintenance with Constraint
Programming and Quantum Annealing [0.0]
ストック割り当て最適化のための制約プログラミング(CP)と量子アニーリング(QA)のアプローチを提案し,比較する。
CPアプローチでは、全微分制約、要素制約の拡張、論理的含意を用いて問題をモデル化する。
QA アプローチでは,2次非制約バイナリ最適化 (QUBO) モデルを開発する。
論文 参考訳(メタデータ) (2021-09-15T11:00:53Z) - A Value-Function-based Interior-point Method for Non-convex Bi-level
Optimization [38.75417864443519]
バイレベル最適化モデルは、実践的な関心を持って、幅広い複雑な学習タスクをキャプチャすることができる。
そこで我々は,下層問題における正規化値関数を上層目標にペナルティ化する,新しい内部Biレベル値に基づく内点法を提案する。
論文 参考訳(メタデータ) (2021-06-15T09:10:40Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。