論文の概要: Reinforcement Logic Rule Learning for Temporal Point Processes
- arxiv url: http://arxiv.org/abs/2308.06094v1
- Date: Fri, 11 Aug 2023 12:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:03:04.160272
- Title: Reinforcement Logic Rule Learning for Temporal Point Processes
- Title(参考訳): 時間的点過程に対する強化論理規則学習
- Authors: Chao Yang, Lu Wang, Kun Gao, Shuang Li
- Abstract要約: 本稿では,時間的事象の発生を説明するための説明的時間論理則を漸進的に拡張するフレームワークを提案する。
提案アルゴリズムは、現在のルールセットの重みが更新されるマスター問題と、新しいルールを探索し、その可能性を高めるために含めるサブプロブレムとを交互に行う。
人工的および実際の医療データセットにおいて,提案手法の評価を行い,有望な結果を得た。
- 参考スコア(独自算出の注目度): 17.535382791003176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework that can incrementally expand the explanatory temporal
logic rule set to explain the occurrence of temporal events. Leveraging the
temporal point process modeling and learning framework, the rule content and
weights will be gradually optimized until the likelihood of the observational
event sequences is optimal. The proposed algorithm alternates between a master
problem, where the current rule set weights are updated, and a subproblem,
where a new rule is searched and included to best increase the likelihood. The
formulated master problem is convex and relatively easy to solve using
continuous optimization, whereas the subproblem requires searching the huge
combinatorial rule predicate and relationship space. To tackle this challenge,
we propose a neural search policy to learn to generate the new rule content as
a sequence of actions. The policy parameters will be trained end-to-end using
the reinforcement learning framework, where the reward signals can be
efficiently queried by evaluating the subproblem objective. The trained policy
can be used to generate new rules in a controllable way. We evaluate our
methods on both synthetic and real healthcare datasets, obtaining promising
results.
- Abstract(参考訳): 本稿では,時間的事象の発生を説明するために,説明的時相論理規則セットを段階的に拡張できる枠組みを提案する。
時間点プロセスモデリングおよび学習フレームワークを活用することで、観測イベントシーケンスの可能性が最適になるまで、ルールの内容と重みは徐々に最適化される。
提案するアルゴリズムは、現在のルールセットの重みが更新されるマスター問題と、新しいルールが探索され、最も可能性を高めるために含まれるサブプロブレムとを交互に扱う。
定式化されたマスター問題は凸であり、連続最適化を用いて解くのは比較的容易であるが、部分問題には巨大な組合せ規則述語と関係空間の探索が必要である。
この課題に取り組むために,新たなルールコンテンツの生成を一連のアクションとして学習するためのニューラル検索ポリシーを提案する。
政策パラメータは強化学習フレームワークを用いてエンドツーエンドで訓練され、報酬信号はサブプロブレムの目的を評価することで効率的にクエリすることができる。
トレーニングされたポリシーは、コントロール可能な方法で新しいルールを生成するために使用することができる。
我々は,合成データと実際の医療データの両方について評価を行い,有望な結果を得た。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement
Learning [6.003234406806134]
本研究では,連続的なアロケーションタスクに対するディリクレポリシを提案し,そのポリシー勾配のバイアスと分散を分析した。
ディリクレポリシはバイアスフリーであり,ガウス-ソフトマックスポリシよりもはるかに高速な収束と性能を提供することを示した。
実験の結果, 最適動作を規定し, 多出力電源システムの効率と持続可能性を向上させる可能性が示された。
論文 参考訳(メタデータ) (2022-01-20T20:41:04Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - A Subgame Perfect Equilibrium Reinforcement Learning Approach to
Time-inconsistent Problems [4.314956204483074]
我々は,時間一貫性(TIC)問題に対するサブゲーム完全均衡強化学習フレームワークを構築した。
我々は,SPERLを解き,両課題に対処する,BPI(backward Policy iteration)と呼ばれるアルゴリズムの新たなクラスを提案する。
トレーニングフレームワークとしてのBPIの実用性を実証するため,標準的なRLシミュレーション手法を適用し,2つのBPIベースのトレーニングアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-10-27T09:21:35Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Better Short than Greedy: Interpretable Models through Optimal Rule
Boosting [10.938624307941197]
ルールアンサンブルは、予測精度とモデル解釈可能性の間の有用なトレードオフを提供するように設計されている。
与えられたアンサンブルサイズに対して最大予測力の規則アンサンブルを適合させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T01:03:48Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。