論文の概要: DRILL-- Deep Reinforcement Learning for Refinement Operators in
$\mathcal{ALC}$
- arxiv url: http://arxiv.org/abs/2106.15373v1
- Date: Tue, 29 Jun 2021 12:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:36:53.724009
- Title: DRILL-- Deep Reinforcement Learning for Refinement Operators in
$\mathcal{ALC}$
- Title(参考訳): DRILL--$\mathcal{ALC}$におけるリファインメント演算子の深部強化学習
- Authors: Caglar Demir and Axel-Cyrille Ngonga Ngomo
- Abstract要約: 本稿では,畳み込み型Q-ラーニングモデルを用いた新しいクラス表現学習手法DRILLを提案する。
そのアーキテクチャにより、DRILLは標準ハードウェア上で1秒で103ドル以上のクラス表現の期待値の累積的な将来の報酬を計算することができる。
- 参考スコア(独自算出の注目度): 1.9036571490366496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Approaches based on refinement operators have been successfully applied to
class expression learning on RDF knowledge graphs. These approaches often need
to explore a large number of concepts to find adequate hypotheses. This need
arguably stems from current approaches relying on myopic heuristic functions to
guide their search through an infinite concept space. In turn, deep
reinforcement learning provides effective means to address myopia by estimating
how much discounted cumulated future reward states promise. In this work, we
leverage deep reinforcement learning to accelerate the learning of concepts in
$\mathcal{ALC}$ by proposing DRILL -- a novel class expression learning
approach that uses a convolutional deep Q-learning model to steer its search.
By virtue of its architecture, DRILL is able to compute the expected discounted
cumulated future reward of more than $10^3$ class expressions in a second on
standard hardware. We evaluate DRILL on four benchmark datasets against
state-of-the-art approaches. Our results suggest that DRILL converges to goal
states at least 2.7$\times$ faster than state-of-the-art models on all
benchmark datasets. We provide an open-source implementation of our approach,
including training and evaluation scripts as well as pre-trained models.
- Abstract(参考訳): RDF知識グラフ上でのクラス表現学習に洗練された演算子に基づくアプローチがうまく適用されている。
これらのアプローチは、適切な仮説を見つけるために、しばしば多くの概念を探求する必要がある。
これは必然的に、無限の概念空間を通して探索を導くための神秘的ヒューリスティック関数に依存する現在のアプローチに由来する。
次に、深層強化学習(deep reinforcement learning)は、累積された将来の報酬状態が約束する金額を見積もることで、ミオピアに対処する効果的な手段を提供する。
本研究では,畳み込み型深層q学習モデルを用いた新しいクラス表現学習手法である drill の提案により,概念の学習を高速化する深層強化学習手法を提案する。
そのアーキテクチャにより、DRILLは標準ハードウェア上で1秒で10^3$以上のクラス表現の期待値の累積的な将来の報酬を計算することができる。
我々は,4つのベンチマークデータセット上でDRILLを評価した。
我々の結果は、DRILLが目標状態に収束し、全てのベンチマークデータセットの最先端モデルよりも少なくとも2.7$\times$速いことを示唆している。
トレーニングと評価のスクリプトと事前訓練されたモデルを含む、我々のアプローチのオープンソース実装を提供する。
関連論文リスト
- Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Learning Deep Representation with Energy-Based Self-Expressiveness for
Subspace Clustering [24.311754971064303]
本稿では,エネルギーモデルに基づく新しい深部サブスペースクラスタリングフレームワークを提案する。
最近普及している自己教師型学習の強力な表現能力を考えると、自己教師型表現学習を利用して辞書を学習しようとする。
論文 参考訳(メタデータ) (2021-10-28T11:51:08Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Unsupervised Learning of slow features for Data Efficient Regression [15.73372211126635]
本稿では、遅延表現に時間的類似性制約を適用した$beta$-VAEの拡張である、遅い変分オートエンコーダ(S-VAE)を提案する。
合成2次元球追跡データセットと、最近の学習環境からのデータセットとDeepMind Lab環境から生成されたデータセットを用いて、下流タスクのデータ効率に対する3つの手法を評価する。
論文 参考訳(メタデータ) (2020-12-11T12:19:45Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。