Fugu-MT 論文翻訳(概要): Fitted Q-Learning for Relational Domains

論文の概要: Fitted Q-Learning for Relational Domains

arxiv url: http://arxiv.org/abs/2006.05595v1
Date: Wed, 10 Jun 2020 01:18:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 04:23:22.136578
Title: Fitted Q-Learning for Relational Domains
Title（参考訳）: 関係領域に対する適合Q-Learning
Authors: Srijita Das, Sriraam Natarajan, Kaushik Roy, Ronald Parr and Kristian Kersting
Abstract要約: 本稿では,値関数とベルマン残差を表現したQ-ラーニングアルゴリズムを開発した。本稿では,Bellman演算子の2つのステップについて述べる。
参考スコア（独自算出の注目度）: 29.90646258513537
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of Approximate Dynamic Programming in relational domains. Inspired by the success of fitted Q-learning methods in propositional settings, we develop the first relational fitted Q-learning algorithms by representing the value function and Bellman residuals. When we fit the Q-functions, we show how the two steps of Bellman operator; application and projection steps can be performed using a gradient-boosting technique. Our proposed framework performs reasonably well on standard domains without using domain models and using fewer training trajectories.
Abstract（参考訳）: 関係領域における近似動的プログラミングの問題点を考察する。提案条件下での適合Q-ラーニング手法の成功に触発されて,値関数とベルマン残差を表現した最初の関係適合Q-ラーニングアルゴリズムを開発した。 Q-関数に適合すると、ベルマン作用素の2つのステップ、すなわち、勾配ブースティング手法を用いて、応用と射影のステップが実行可能であることを示す。提案フレームワークは、ドメインモデルを用いることなく、トレーニングトラジェクトリを少なくすることなく、標準ドメインで合理的に機能する。

関連論文リスト

Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文参考訳（メタデータ） (2025-04-30T05:26:51Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Trainability maximization using estimation of distribution algorithms assisted by surrogate modelling for quantum architecture search [8.226785409557598]
量子アーキテクチャサーチ(QAS)は、量子パラメトリック回路の構成を最適化するだけでなく、変分量子アルゴリズムのパラメータも最適化する。本稿では,(1)粗悪な性能のアーキテクチャを積極的に破棄する評価プロセスのオンラインサロゲートモデルによる測定数を削減し,(2)BPが存在する場合の回路のトレーニングを避けることを目的とした。我々は、変分量子固有解法の提案を実験的に検証し、我々のアルゴリズムがハミルトニアンの文献でこれまで提案されていた解を見つけることができることを示した。
論文参考訳（メタデータ） (2024-07-29T15:22:39Z)
Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文参考訳（メタデータ） (2024-01-26T20:45:40Z)
Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文参考訳（メタデータ） (2023-11-05T12:03:58Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Convex Q Learning in a Stochastic Environment: Extended Version [1.680268810119084]
本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。この理論は古典的な在庫管理問題への応用として説明されている。
論文参考訳（メタデータ） (2023-09-10T18:24:43Z)
Optimising Rolling Stock Planning including Maintenance with Constraint Programming and Quantum Annealing [0.0]
ストック割り当て最適化のための制約プログラミング(CP)と量子アニーリング(QA)のアプローチを提案し,比較する。 CPアプローチでは、全微分制約、要素制約の拡張、論理的含意を用いて問題をモデル化する。 QA アプローチでは,2次非制約バイナリ最適化 (QUBO) モデルを開発する。
論文参考訳（メタデータ） (2021-09-15T11:00:53Z)
A Value-Function-based Interior-point Method for Non-convex Bi-level Optimization [38.75417864443519]
バイレベル最適化モデルは、実践的な関心を持って、幅広い複雑な学習タスクをキャプチャすることができる。そこで我々は,下層問題における正規化値関数を上層目標にペナルティ化する,新しい内部Biレベル値に基づく内点法を提案する。
論文参考訳（メタデータ） (2021-06-15T09:10:40Z)
Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。 2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文参考訳（メタデータ） (2021-06-06T23:53:31Z)
Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文参考訳（メタデータ） (2021-04-20T18:16:21Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。