論文の概要: DRILL-- Deep Reinforcement Learning for Refinement Operators in
$\mathcal{ALC}$
- arxiv url: http://arxiv.org/abs/2106.15373v1
- Date: Tue, 29 Jun 2021 12:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:36:53.724009
- Title: DRILL-- Deep Reinforcement Learning for Refinement Operators in
$\mathcal{ALC}$
- Title(参考訳): DRILL--$\mathcal{ALC}$におけるリファインメント演算子の深部強化学習
- Authors: Caglar Demir and Axel-Cyrille Ngonga Ngomo
- Abstract要約: 本稿では,畳み込み型Q-ラーニングモデルを用いた新しいクラス表現学習手法DRILLを提案する。
そのアーキテクチャにより、DRILLは標準ハードウェア上で1秒で103ドル以上のクラス表現の期待値の累積的な将来の報酬を計算することができる。
- 参考スコア(独自算出の注目度): 1.9036571490366496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Approaches based on refinement operators have been successfully applied to
class expression learning on RDF knowledge graphs. These approaches often need
to explore a large number of concepts to find adequate hypotheses. This need
arguably stems from current approaches relying on myopic heuristic functions to
guide their search through an infinite concept space. In turn, deep
reinforcement learning provides effective means to address myopia by estimating
how much discounted cumulated future reward states promise. In this work, we
leverage deep reinforcement learning to accelerate the learning of concepts in
$\mathcal{ALC}$ by proposing DRILL -- a novel class expression learning
approach that uses a convolutional deep Q-learning model to steer its search.
By virtue of its architecture, DRILL is able to compute the expected discounted
cumulated future reward of more than $10^3$ class expressions in a second on
standard hardware. We evaluate DRILL on four benchmark datasets against
state-of-the-art approaches. Our results suggest that DRILL converges to goal
states at least 2.7$\times$ faster than state-of-the-art models on all
benchmark datasets. We provide an open-source implementation of our approach,
including training and evaluation scripts as well as pre-trained models.
- Abstract(参考訳): RDF知識グラフ上でのクラス表現学習に洗練された演算子に基づくアプローチがうまく適用されている。
これらのアプローチは、適切な仮説を見つけるために、しばしば多くの概念を探求する必要がある。
これは必然的に、無限の概念空間を通して探索を導くための神秘的ヒューリスティック関数に依存する現在のアプローチに由来する。
次に、深層強化学習(deep reinforcement learning)は、累積された将来の報酬状態が約束する金額を見積もることで、ミオピアに対処する効果的な手段を提供する。
本研究では,畳み込み型深層q学習モデルを用いた新しいクラス表現学習手法である drill の提案により,概念の学習を高速化する深層強化学習手法を提案する。
そのアーキテクチャにより、DRILLは標準ハードウェア上で1秒で10^3$以上のクラス表現の期待値の累積的な将来の報酬を計算することができる。
我々は,4つのベンチマークデータセット上でDRILLを評価した。
我々の結果は、DRILLが目標状態に収束し、全てのベンチマークデータセットの最先端モデルよりも少なくとも2.7$\times$速いことを示唆している。
トレーニングと評価のスクリプトと事前訓練されたモデルを含む、我々のアプローチのオープンソース実装を提供する。
関連論文リスト
- Efficient Exploration in Deep Reinforcement Learning: A Novel Bayesian Actor-Critic Algorithm [0.195804735329484]
強化学習(RL)と深層強化学習(DRL)は破壊する可能性があり、我々が世界と対話する方法を既に変えている。
適用可能性の重要な指標の1つは、実世界のシナリオでスケールして機能する能力である。
論文 参考訳(メタデータ) (2024-08-19T14:50:48Z) - Exploiting Pre-trained Models for Drug Target Affinity Prediction with Nearest Neighbors [58.661454334877256]
薬物-標的結合親和性(DTA)予測は、薬物発見に不可欠である。
DTA予測へのディープラーニング手法の適用にもかかわらず、達成された精度は依然として準最適である。
事前学習したDTA予測モデルに適用した非表現埋め込みに基づく検索手法である$k$NN-DTAを提案する。
論文 参考訳(メタデータ) (2024-07-21T15:49:05Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。