論文の概要: On Using Admissible Bounds for Learning Forward Search Heuristics
- arxiv url: http://arxiv.org/abs/2308.11905v2
- Date: Mon, 2 Oct 2023 20:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 07:32:42.500556
- Title: On Using Admissible Bounds for Learning Forward Search Heuristics
- Title(参考訳): 前方探索ヒューリスティックス学習における許容境界の利用について
- Authors: Carlos N\'u\~nez-Molina, Masataro Asai, Juan Fern\'andez-Olivares,
Pablo Mesejo
- Abstract要約: 平均二乗誤差(MSE)を最小化して多時間許容値から学習することは正しいアプローチではない,と我々は主張する。
本稿では,学習対象を学習対象ではなく,学習対象として,学習対象を学習対象とするガウシアンをモデル化することを提案する。
この結果、文献で一般的に用いられているMSEとは異なる損失関数が得られ、学習結果をガウス分布として暗黙的にモデル化する。
- 参考スコア(独自算出の注目度): 4.733158055894704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been growing interest in utilizing modern machine
learning techniques to learn heuristic functions for forward search algorithms.
Despite this, there has been little theoretical understanding of \emph{what}
they should learn, \emph{how} to train them, and \emph{why} we do so. This lack
of understanding has resulted in the adoption of diverse training targets
(suboptimal vs optimal costs vs admissible heuristics) and loss functions
(e.g., square vs absolute errors) in the literature. In this work, we focus on
how to effectively utilize the information provided by admissible heuristics in
heuristic learning. We argue that learning from poly-time admissible heuristics
by minimizing mean square errors (MSE) is not the correct approach, since its
result is merely a noisy, inadmissible copy of an efficiently computable
heuristic. Instead, we propose to model the learned heuristic as a truncated
gaussian, where admissible heuristics are used not as training targets but as
lower bounds of this distribution. This results in a different loss function
from the MSE commonly employed in the literature, which implicitly models the
learned heuristic as a gaussian distribution. We conduct experiments where both
MSE and our novel loss function are applied to learning a heuristic from
optimal plan costs. Results show that our proposed method converges faster
during training and yields better heuristics, with 40% lower MSE on average.
- Abstract(参考訳): 近年,前方探索アルゴリズムのヒューリスティック関数を学習するために,現代の機械学習技術を活用することへの関心が高まっている。
それにもかかわらず、彼らが学ぶべき \emph{what} 、訓練すべき \emph{how} 、そしてそれを行う \emph{why} に関する理論的理解はほとんどない。
この理解の欠如は、文学において様々な訓練対象(最適対最適コスト対許容ヒューリスティックス)と損失関数(例えば正方形対絶対誤差)が採用される結果となった。
本研究では,ヒューリスティック学習において,許容ヒューリスティックスが提供する情報を効果的に活用する方法に焦点を当てる。
平均二乗誤差(MSE)の最小化による多時間許容ヒューリスティックスからの学習は,単にノイズの多い,計算可能なヒューリスティックの非許容コピーであるため,正しいアプローチではない,と我々は主張する。
そこで我々は,学習ヒューリスティックを,訓練対象としてではなく,この分布の低域として,許容ヒューリスティックを活用可能なガウス型としてモデル化することを提案する。
この結果、文献で一般的に用いられるMSEとは異なる損失関数となり、学習したヒューリスティックをガウス分布として暗黙的にモデル化する。
最適な計画コストからヒューリスティックを学ぶためにmseと新しい損失関数の両方を適用した実験を行う。
その結果,提案手法はトレーニング中により高速に収束し,平均40%のMSE値が得られた。
関連論文リスト
- Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient
Kernels [60.35011738807833]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は、ベンチマークODEとPDE発見タスクのリストにおいて、KBASSの顕著な利点を示す。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Outage Performance and Novel Loss Function for an ML-Assisted Resource
Allocation: An Exact Analytical Framework [2.1397655110395752]
本稿では,MLベースのリソース割り当てシステムの停止確率を最小限に抑えるために,新たな損失関数を提案する。
MLバイナリ分類予測器は、確立された停止基準を満たすリソースの選択を支援する。
論文 参考訳(メタデータ) (2023-05-16T18:23:52Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Regularized ERM on random subspaces [17.927376388967144]
我々は、Nystromがカーネルメソッドに近づいた特殊なケースとして、データのランダムなサブセットにまたがるデータ依存部分空間を考える。
ランダムな部分空間を考えると自然に計算上の節約につながるが、問題は対応する学習精度が劣化するかどうかである。
論文 参考訳(メタデータ) (2022-12-04T16:12:11Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。