論文の概要: Exploiting Learned Policies in Focal Search
- arxiv url: http://arxiv.org/abs/2104.10535v1
- Date: Wed, 21 Apr 2021 13:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 18:47:55.436777
- Title: Exploiting Learned Policies in Focal Search
- Title(参考訳): 音声検索における学習政策の展開
- Authors: Pablo Araneda, Matias Greco, Jorge Baier
- Abstract要約: 政策学習を有界-準最適探索アルゴリズムに統合する方法を示す。
提案手法は3つのベンチマーク領域を対象とし,15-puzzleでは150万のサンプルを用いて学習したニューラルネットワークを用いて解析を行った。
本稿では,emphDiscrepancy Focal Searchにおいて,対応する経路が最適経路の接頭辞である確率の近似を最大化するノードを拡大し,実行時および解の質の観点から最もよい結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.49723239539321284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent machine-learning approaches to deterministic search and
domain-independent planning employ policy learning to speed up search.
Unfortunately, when attempting to solve a search problem by successively
applying a policy, no guarantees can be given on solution quality. The problem
of how to effectively use a learned policy within a bounded-suboptimal search
algorithm remains largely as an open question. In this paper, we propose
various ways in which such policies can be integrated into Focal Search,
assuming that the policy is a neural network classifier. Furthermore, we
provide mathematical foundations for some of the resulting algorithms. To
evaluate the resulting algorithms over a number of policies with varying
accuracy, we use synthetic policies which can be generated for a target
accuracy for problems where the search space can be held in memory. We evaluate
our focal search variants over three benchmark domains using our synthetic
approach, and on the 15-puzzle using a neural network learned using 1.5 million
examples. We observe that \emph{Discrepancy Focal Search}, which we show
expands the node which maximizes an approximation of the probability that its
corresponding path is a prefix of an optimal path, obtains, in general, the
best results in terms of runtime and solution quality.
- Abstract(参考訳): 決定論的探索とドメインに依存しない計画に対する最近の機械学習アプローチは、探索を高速化するためにポリシー学習を採用する。
残念ながら、ポリシーを順次適用して探索問題を解決しようとすると、ソリューションの品質に関する保証は得られない。
有界-準最適探索アルゴリズムにおいて学習ポリシーを効果的に活用する方法の問題は、主にオープンな問題として残っている。
本稿では,そのポリシがニューラルネットワークの分類器であることを前提に,そのようなポリシーを焦点探索に統合する様々な方法を提案する。
さらに、いくつかのアルゴリズムの数学的基礎を提供する。
結果として得られるアルゴリズムを,様々な精度で評価するために,探索空間をメモリに保持できる問題に対して,目標精度に対して生成可能な合成ポリシーを用いる。
提案手法は3つのベンチマーク領域を対象とし,15-puzzleでは150万のサンプルを用いて学習したニューラルネットワークを用いて解析を行った。
我々は,その経路が最適経路の接頭辞である確率の近似を最大化するノードの展開を示す \emph{discrepancy focal search} を観察し,一般に,実行時間と解品質の観点から最良の結果を得る。
関連論文リスト
- Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Policy-Guided Heuristic Search with Guarantees [31.323430201941378]
Policy-guided Heuristic Search (PHS) は、関数とポリシーの両方を利用する新しい検索アルゴリズムである。
PHS は A*, Weighted A*, Greedy Best-First Search, LevinTS, PUCT と, 解決された問題数と検索時間の点で比較できる。
論文 参考訳(メタデータ) (2021-03-21T22:30:57Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - Learning 2-opt Heuristics for the Traveling Salesman Problem via Deep
Reinforcement Learning [2.4565068569913384]
本研究では,2オプト演算子に基づく局所的な探索勾配を深層強化学習により学習することを提案する。
学習したポリシは、ランダムな初期解よりも改善でき、従来の最先端のディープラーニング手法よりも高速に、ほぼ最適解にアプローチできることを示す。
論文 参考訳(メタデータ) (2020-04-03T14:51:54Z) - Robust Policy Search for Robot Navigation with Stochastic Meta-Policies [5.7871177330714145]
本研究では,ベイズ最適化の主成分を生かして,ポリシー探索アルゴリズムの様々な問題に対して堅牢性を提供する。
いくつかの手法を組み合わせて、それらの相互作用が部品の和よりもどのように機能するかを示す。
提案アルゴリズムを,ロボットアームによるオブジェクトのプッシュやローバーによる経路探索など,いくつかの最適化ベンチマークやロボットタスクにおいて,以前の結果と比較した。
論文 参考訳(メタデータ) (2020-03-02T16:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。