論文の概要: Understanding Sample Generation Strategies for Learning Heuristic
Functions in Classical Planning
- arxiv url: http://arxiv.org/abs/2211.13316v2
- Date: Thu, 30 Nov 2023 17:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:57:40.911349
- Title: Understanding Sample Generation Strategies for Learning Heuristic
Functions in Classical Planning
- Title(参考訳): 古典計画におけるヒューリスティック関数学習のためのサンプル生成戦略の理解
- Authors: R. V. Bettker, P. P. Minini, A. G. Pereira, M. Ritt
- Abstract要約: 本研究では,従来の計画課題において,コスト・ツー・ゴールの推定値で表されるサンプルに基づいて,ネットワークを用いた優れた機能学習の課題について検討する。
我々の主なゴールは、グリージーな最優先のニューラルサーチアルゴリズムの性能に対するサンプル生成戦略の影響をよりよく理解することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning good heuristic functions for classical
planning tasks with neural networks based on samples represented by states with
their cost-to-goal estimates. The heuristic function is learned for a state
space and goal condition with the number of samples limited to a fraction of
the size of the state space, and must generalize well for all states of the
state space with the same goal condition. Our main goal is to better understand
the influence of sample generation strategies on the performance of a greedy
best-first heuristic search (GBFS) guided by a learned heuristic function. In a
set of controlled experiments, we find that two main factors determine the
quality of the learned heuristic: which states are included in the sample set
and the quality of the cost-to-goal estimates. These two factors are dependent:
having perfect cost-to-goal estimates is insufficient if the samples are not
well distributed across the state space. We also study other effects, such as
adding samples with high-value estimates. Based on our findings, we propose
practical strategies to improve the quality of learned heuristics: three
strategies that aim to generate more representative states and two strategies
that improve the cost-to-goal estimates. Our practical strategies almost double
the mean coverage of a GBFS algorithm guided by a learned heuristic.
- Abstract(参考訳): 本研究では,ニューラルネットワークを用いた古典的計画課題における良質なヒューリスティック関数の学習の問題点について,そのコスト対ゴール推定値に基づくサンプルに基づいて検討する。
ヒューリスティック関数は状態空間とゴール条件に対して学習され、サンプルの数は状態空間のサイズのごく一部に制限され、同じゴール条件を持つ状態空間の全ての状態に対してうまく一般化されなければならない。
我々の主な目標は,学習したヒューリスティック関数に導かれた欲望のベストファーストヒューリスティック検索(gbfs)の性能に及ぼすサンプル生成戦略の影響をより深く理解することである。
制御された実験のセットでは、学習されたヒューリスティックの質を決定する2つの主要な要因が示されている: サンプルセットに含まれる状態とコストからゴールへの見積もりの品質である。
完全なコスト・ツー・ゴール推定を持つことは、サンプルが状態空間に分散していない場合、不十分である。
また,高値推定値のサンプルの追加など,他の効果についても検討する。
本研究は,学習ヒューリスティックスの品質向上のための実践的戦略として,より代表的な状態を生成するための3つの戦略と,コスト・ツー・ゴール推定を改善する2つの戦略を提案する。
我々の実践戦略は、学習ヒューリスティックによって導かれるGBFSアルゴリズムの平均カバレッジをほぼ2倍にします。
関連論文リスト
- Optimal Fidelity Estimation from Binary Measurements for Discrete and Continuous Variable Systems [6.253919624802852]
連続変数(CV)システムでは、変位パリティ測定によって測定できるウィグナー関数を利用する。
Fock や Gaussian のような特定の興味のある対象状態に対して、このサンプルの複雑さはウィグナー函数の$L1$-ノルムによって特徴づけられる。
汎用ブラックボックスモデルでは,任意の対象状態に対して,対象状態の滑らかな$L1$-normにより,忠実度推定のための最適なサンプル複雑性が特徴づけられる。
論文 参考訳(メタデータ) (2024-09-06T11:07:55Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Gradient and Uncertainty Enhanced Sequential Sampling for Global Fit [0.0]
本稿では、GUESS(Gradient and Uncertainty Enhanced Sequential Smpling)と呼ばれる、グローバル適合のための新しいサンプリング戦略を提案する。
GUESSは, 実験例における他のサロゲート型戦略と比較して, 平均的な試料効率で達成された。
論文 参考訳(メタデータ) (2023-09-29T19:49:39Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文 参考訳(メタデータ) (2022-08-17T08:04:41Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Exploratory Landscape Analysis is Strongly Sensitive to the Sampling
Strategy [8.246980996934347]
明示的な問題表現が利用できないブラックボックス最適化では、少数のサンプルポイントから特徴値を近似する必要がある。
本研究では,サンプリング法とサンプルサイズが特徴値の近似値の品質に与える影響を解析する。
論文 参考訳(メタデータ) (2020-06-19T13:45:13Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Optimistic Agent: Accurate Graph-Based Value Estimation for More
Successful Visual Navigation [18.519303422753534]
先行知識(または経験)の取り込み、観察された視覚的手がかりを用いた新しい環境への適応、そして早期に諦めることなく楽観的に探索することの3つの主な理由により、この能力は大きいと論じる。
これは現在、強化学習(RL)に基づく最先端のビジュアルナビゲーション手法に欠けている。
本稿では,相対的対象位置の事前知識を外部から学習し,ニューラルグラフを構築してモデルに統合することを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。