論文の概要: Understanding Sample Generation Strategies for Learning Heuristic Functions in Classical Planning
- arxiv url: http://arxiv.org/abs/2211.13316v3
- Date: Mon, 3 Jun 2024 01:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 23:45:37.339125
- Title: Understanding Sample Generation Strategies for Learning Heuristic Functions in Classical Planning
- Title(参考訳): 古典計画におけるヒューリスティック関数学習のためのサンプル生成戦略の理解
- Authors: R. V. Bettker, P. P. Minini, A. G. Pereira, M. Ritt,
- Abstract要約: 本研究では,従来の計画課題において,コスト・ツー・ゴールの推定値で表されるサンプルに基づいて,従来の計画課題のよい関数を学習する問題について検討する。
我々の主なゴールは、学習機能によって誘導される欲求最優先ニューラルサーチ(GBFS)の性能に対するサンプル生成戦略の影響をよりよく理解することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning good heuristic functions for classical planning tasks with neural networks based on samples represented by states with their cost-to-goal estimates. The heuristic function is learned for a state space and goal condition with the number of samples limited to a fraction of the size of the state space, and must generalize well for all states of the state space with the same goal condition. Our main goal is to better understand the influence of sample generation strategies on the performance of a greedy best-first heuristic search (GBFS) guided by a learned heuristic function. In a set of controlled experiments, we find that two main factors determine the quality of the learned heuristic: the algorithm used to generate the sample set and how close the sample estimates to the perfect cost-to-goal are. These two factors are dependent: having perfect cost-to-goal estimates is insufficient if the samples are not well distributed across the state space. We also study other effects, such as adding samples with high-value estimates. Based on our findings, we propose practical strategies to improve the quality of learned heuristics: three strategies that aim to generate more representative states and two strategies that improve the cost-to-goal estimates. Our practical strategies result in a learned heuristic that, when guiding a GBFS algorithm, increases by more than 30% the mean coverage compared to a baseline learned heuristic.
- Abstract(参考訳): 本研究では,従来の計画課題に対するニューラルネットワークを用いた優れたヒューリスティック関数の学習課題について,コスト・ツー・ゴール推定値で表されるサンプルに基づいて検討する。
ヒューリスティック関数は状態空間とゴール条件に対して学習され、サンプルの数は状態空間のサイズのごく一部に制限され、同じゴール条件を持つ状態空間の全ての状態に対してうまく一般化されなければならない。
本研究の目的は,サンプル生成戦略が学習ヒューリスティック関数によって誘導される欲求最優先ヒューリスティックサーチ(GBFS)の性能に与える影響をよりよく理解することである。
制御された実験のセットにおいて、2つの主要な要因が学習されたヒューリスティックの質を決定することを発見した。
完全なコスト・ツー・ゴール推定を持つことは、サンプルが状態空間に分散していない場合、不十分である。
また,高値推定値のサンプルの追加など,他の効果についても検討する。
本研究は,学習ヒューリスティックスの品質向上のための実践的戦略として,より代表的な状態を生成するための3つの戦略と,コスト・ツー・ゴール推定を改善する2つの戦略を提案する。
我々の実践戦略は、GBFSアルゴリズムを導くと、ベースラインの学習ヒューリスティックに比べて平均カバレッジが30%以上増加するという学習ヒューリスティックをもたらす。
関連論文リスト
- Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Gradient and Uncertainty Enhanced Sequential Sampling for Global Fit [0.0]
本稿では、GUESS(Gradient and Uncertainty Enhanced Sequential Smpling)と呼ばれる、グローバル適合のための新しいサンプリング戦略を提案する。
GUESSは, 実験例における他のサロゲート型戦略と比較して, 平均的な試料効率で達成された。
論文 参考訳(メタデータ) (2023-09-29T19:49:39Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文 参考訳(メタデータ) (2022-08-17T08:04:41Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Maximizing Welfare with Incentive-Aware Evaluation Mechanisms [18.304048425012503]
本稿では,その特徴をコストで修正できる戦略的個人によって,入力が制御される評価問題を提案する。
学習者は特徴を部分的に観察することしかできず、品質スコアに関して個人を分類することを目的としている。
論文 参考訳(メタデータ) (2020-11-03T19:00:43Z) - Exploratory Landscape Analysis is Strongly Sensitive to the Sampling
Strategy [8.246980996934347]
明示的な問題表現が利用できないブラックボックス最適化では、少数のサンプルポイントから特徴値を近似する必要がある。
本研究では,サンプリング法とサンプルサイズが特徴値の近似値の品質に与える影響を解析する。
論文 参考訳(メタデータ) (2020-06-19T13:45:13Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Optimistic Agent: Accurate Graph-Based Value Estimation for More
Successful Visual Navigation [18.519303422753534]
先行知識(または経験)の取り込み、観察された視覚的手がかりを用いた新しい環境への適応、そして早期に諦めることなく楽観的に探索することの3つの主な理由により、この能力は大きいと論じる。
これは現在、強化学習(RL)に基づく最先端のビジュアルナビゲーション手法に欠けている。
本稿では,相対的対象位置の事前知識を外部から学習し,ニューラルグラフを構築してモデルに統合することを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。