論文の概要: Understanding Sample Generation Strategies for Learning Heuristic
Functions in Classical Planning
- arxiv url: http://arxiv.org/abs/2211.13316v2
- Date: Thu, 30 Nov 2023 17:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:57:40.911349
- Title: Understanding Sample Generation Strategies for Learning Heuristic
Functions in Classical Planning
- Title(参考訳): 古典計画におけるヒューリスティック関数学習のためのサンプル生成戦略の理解
- Authors: R. V. Bettker, P. P. Minini, A. G. Pereira, M. Ritt
- Abstract要約: 本研究では,従来の計画課題において,コスト・ツー・ゴールの推定値で表されるサンプルに基づいて,ネットワークを用いた優れた機能学習の課題について検討する。
我々の主なゴールは、グリージーな最優先のニューラルサーチアルゴリズムの性能に対するサンプル生成戦略の影響をよりよく理解することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning good heuristic functions for classical
planning tasks with neural networks based on samples represented by states with
their cost-to-goal estimates. The heuristic function is learned for a state
space and goal condition with the number of samples limited to a fraction of
the size of the state space, and must generalize well for all states of the
state space with the same goal condition. Our main goal is to better understand
the influence of sample generation strategies on the performance of a greedy
best-first heuristic search (GBFS) guided by a learned heuristic function. In a
set of controlled experiments, we find that two main factors determine the
quality of the learned heuristic: which states are included in the sample set
and the quality of the cost-to-goal estimates. These two factors are dependent:
having perfect cost-to-goal estimates is insufficient if the samples are not
well distributed across the state space. We also study other effects, such as
adding samples with high-value estimates. Based on our findings, we propose
practical strategies to improve the quality of learned heuristics: three
strategies that aim to generate more representative states and two strategies
that improve the cost-to-goal estimates. Our practical strategies almost double
the mean coverage of a GBFS algorithm guided by a learned heuristic.
- Abstract(参考訳): 本研究では,ニューラルネットワークを用いた古典的計画課題における良質なヒューリスティック関数の学習の問題点について,そのコスト対ゴール推定値に基づくサンプルに基づいて検討する。
ヒューリスティック関数は状態空間とゴール条件に対して学習され、サンプルの数は状態空間のサイズのごく一部に制限され、同じゴール条件を持つ状態空間の全ての状態に対してうまく一般化されなければならない。
我々の主な目標は,学習したヒューリスティック関数に導かれた欲望のベストファーストヒューリスティック検索(gbfs)の性能に及ぼすサンプル生成戦略の影響をより深く理解することである。
制御された実験のセットでは、学習されたヒューリスティックの質を決定する2つの主要な要因が示されている: サンプルセットに含まれる状態とコストからゴールへの見積もりの品質である。
完全なコスト・ツー・ゴール推定を持つことは、サンプルが状態空間に分散していない場合、不十分である。
また,高値推定値のサンプルの追加など,他の効果についても検討する。
本研究は,学習ヒューリスティックスの品質向上のための実践的戦略として,より代表的な状態を生成するための3つの戦略と,コスト・ツー・ゴール推定を改善する2つの戦略を提案する。
我々の実践戦略は、学習ヒューリスティックによって導かれるGBFSアルゴリズムの平均カバレッジをほぼ2倍にします。
関連論文リスト
- Gradient and Uncertainty Enhanced Sequential Sampling for Global Fit [0.0]
本稿では、GUESS(Gradient and Uncertainty Enhanced Sequential Smpling)と呼ばれる、グローバル適合のための新しいサンプリング戦略を提案する。
GUESSは, 実験例における他のサロゲート型戦略と比較して, 平均的な試料効率で達成された。
論文 参考訳(メタデータ) (2023-09-29T19:49:39Z) - Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文 参考訳(メタデータ) (2022-08-17T08:04:41Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Active Learning on a Budget: Opposite Strategies Suit High and Low
Budgets [8.937905773981702]
予算が大きければ,非定型的な点が最善であるのに対して,典型的な点が低予算で問合せされるべきであることを示す。
低予算に適したディープラーニング戦略であるTypiClustを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:09:05Z) - Enhancing Prototypical Few-Shot Learning by Leveraging the Local-Level
Strategy [75.63022284445945]
既存の作業では、ローカルレベルの機能をすべて混ぜることで、イメージレベルの機能に基づいた、いくつかのショットモデルを構築することがよくあります。
a) 基地と新規カテゴリーの識別的位置バイアスを回避するための地域非依存のトレーニング戦略,(b) 地域レベルの特徴の正確な比較を捉えるための新しい地域レベルの類似度尺度を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:45:15Z) - Semi-Supervised Off Policy Reinforcement Learning [3.48396189165489]
健康状態の情報はよくコード化されておらず、臨床記録に埋め込まれることが多い。
そこで本研究では,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。
提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。
論文 参考訳(メタデータ) (2020-12-09T00:59:12Z) - Maximizing Welfare with Incentive-Aware Evaluation Mechanisms [18.304048425012503]
本稿では,その特徴をコストで修正できる戦略的個人によって,入力が制御される評価問題を提案する。
学習者は特徴を部分的に観察することしかできず、品質スコアに関して個人を分類することを目的としている。
論文 参考訳(メタデータ) (2020-11-03T19:00:43Z) - Reinforcement Learning with Neural Networks for Quantum Multiple
Hypothesis Testing [8.006109507455038]
ニューラルネットワーク(RLNN)による強化学習は、最近多くの問題に対して大きな可能性を証明した。
我々は RLNN を用いて, 実験的に実現可能な局所適応型測定手法を提案する。
我々の知る限りでは、局所的プロトコルと集合的プロトコルの間に大きなギャップがある、最も単純な状態集合である。
論文 参考訳(メタデータ) (2020-10-16T18:49:23Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。