論文の概要: Utilizing Admissible Bounds for Heuristic Learning
- arxiv url: http://arxiv.org/abs/2308.11905v1
- Date: Wed, 23 Aug 2023 04:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:46:26.685923
- Title: Utilizing Admissible Bounds for Heuristic Learning
- Title(参考訳): ヒューリスティック学習のための許容境界の利用
- Authors: Carlos N\'u\~nez-Molina and Masataro Asai
- Abstract要約: 本稿では, 教師あり学習における許容値の役割を, トレンチしたガウス分布のパラメータとして用いた。
この数学的モデルは最大エントロピーの原理に忠実に従い、結果としてより正確な分布が得られ、訓練中により早く収束することを示す。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While learning a heuristic function for forward search algorithms with modern
machine learning techniques has been gaining interest in recent years, there
has been little theoretical understanding of \emph{what} they should learn,
\emph{how} to train them, and \emph{why} we do so. This lack of understanding
leads to various literature performing an ad-hoc selection of datasets
(suboptimal vs optimal costs or admissible vs inadmissible heuristics) and
optimization metrics (e.g., squared vs absolute errors). Moreover, due to the
lack of admissibility of the resulting trained heuristics, little focus has
been put on the role of admissibility \emph{during} learning. This paper
articulates the role of admissible heuristics in supervised heuristic learning
using them as parameters of Truncated Gaussian distributions, which tightens
the hypothesis space compared to ordinary Gaussian distributions. We argue that
this mathematical model faithfully follows the principle of maximum entropy and
empirically show that, as a result, it yields more accurate heuristics and
converges faster during training.
- Abstract(参考訳): 近年,機械学習技術を用いた前方探索アルゴリズムのヒューリスティック関数の学習が注目されているが,学習すべき \emph{what} や学習すべき \emph{how} ,学習すべき \emph{why} などの理論的理解は乏しい。
この理解の欠如は、データセット(最適コスト、許容できないヒューリスティック)のアドホックな選択と最適化メトリクス(例えば、二乗と絶対誤差)の実行を様々な文献にもたらします。
さらに、訓練されたヒューリスティックの許容度が不足していることから、許容度 \emph{during} 学習の役割にはほとんど焦点が当てられていない。
本稿では,教師付きヒューリスティック学習における許容的ヒューリスティックスの役割を,通常のガウス分布と比較して仮説空間を狭くするTrncated Gaussian distributionsのパラメータとして用いた。
この数学的モデルは最大エントロピーの原理に忠実に従い、結果としてより正確なヒューリスティックが得られ、訓練中により早く収束することを示す。
関連論文リスト
- Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Refining neural network predictions using background knowledge [68.35246878394702]
学習システムにおける論理的背景知識を用いて,ラベル付きトレーニングデータの不足を補うことができることを示す。
そこで本研究では,修正された予測を元の予測に近い精度で検出する微分可能精細関数を提案する。
このアルゴリズムは、複雑なSATの公式に対して、非常に少ない繰り返しで最適に洗練され、勾配降下ができない解がしばしば見つかる。
論文 参考訳(メタデータ) (2022-06-10T10:17:59Z) - Relational Surrogate Loss Learning [41.61184221367546]
本稿では、評価指標を近似するためにディープニューラルネットワークを用いる代理損失学習を再考する。
本稿では,サロゲート損失と測定値の関係を直接的に維持することを示す。
私たちの方法は最適化がずっと簡単で、大幅な効率と性能向上を享受しています。
論文 参考訳(メタデータ) (2022-02-26T17:32:57Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。