論文の概要: Understanding Sample Generation Strategies for Learning Heuristic
Functions in Classical Planning
- arxiv url: http://arxiv.org/abs/2211.13316v1
- Date: Wed, 23 Nov 2022 21:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:08:11.197534
- Title: Understanding Sample Generation Strategies for Learning Heuristic
Functions in Classical Planning
- Title(参考訳): 古典計画におけるヒューリスティック関数学習のためのサンプル生成戦略の理解
- Authors: R. V. Bettker, P. P. Minini, A. G. Pereira, M. Ritt
- Abstract要約: 本研究では,従来の計画タスクにおいて,コスト・ツー・ゴールの推定値を持つ状態のサンプルに基づいて,ニューラルネットワークを用いた優れた関数学習の課題について検討する。
その結果、サンプルに含まれる状態空間の領域と、コスト・ツー・ゴール推定の品質の2つの要因が学習の質を決定することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning good heuristic functions for classical
planning tasks with neural networks based on samples that are states with their
cost-to-goal estimates. It is well known that the learned model quality depends
on the training data quality. Our main goal is to understand better the
influence of sample generation strategies on the performance of a greedy
best-first heuristic search guided by a learned heuristic function. In a set of
controlled experiments, we find that two main factors determine the quality of
the learned heuristic: the regions of the state space included in the samples
and the quality of the cost-to-goal estimates. Also, these two factors are
interdependent: having perfect estimates of cost-to-goal is insufficient if an
unrepresentative part of the state space is included in the sample set.
Additionally, we study the effects of restricting samples to only include
states that could be evaluated when solving a given task and the effects of
adding samples with high-value estimates. Based on our findings, we propose
practical strategies to improve the quality of learned heuristics: three
strategies that aim to generate more representative states and two strategies
that improve the cost-to-goal estimates. Our resulting neural network heuristic
has higher coverage than a basic satisficing heuristic. Also, compared to a
baseline learned heuristic, our best neural network heuristic almost doubles
the mean coverage and can increase it for some domains by more than six times.
- Abstract(参考訳): 本研究では,従来の計画課題に対するニューラルネットワークを用いた優れたヒューリスティック関数の学習問題について,コスト・ツー・ゴール推定の状態に基づく検討を行った。
学習したモデル品質がトレーニングデータ品質に依存することはよく知られている。
我々の主な目標は,学習したヒューリスティック関数に導かれる欲望のよい第一ヒューリスティック探索の性能に対する,サンプル生成戦略の影響をよりよく理解することである。
制御された実験のセットでは、学習されたヒューリスティックの質を決定する2つの主要な要因が示されている:サンプルに含まれる状態空間の領域とコストからゴールへの見積もりの品質である。
また、これら2つの因子は相互依存的である: 状態空間の非表現的な部分が標本集合に含まれる場合、コスト・トゥ・ゴールの完全な推定は不十分である。
さらに、与えられたタスクを解く際に評価できる状態のみを含むサンプルの制限効果と、高評価値のサンプルを追加する効果について検討した。
本研究は,学習ヒューリスティックスの品質向上のための実践的戦略として,より代表的な状態を生成するための3つの戦略と,コスト・ツー・ゴール推定を改善する2つの戦略を提案する。
得られたニューラルネットワークヒューリスティックは,基本的満足なヒューリスティックよりも高いカバレッジを有する。
また、ベースライン学習ヒューリスティックと比較して、最良のニューラルネットワークヒューリスティックは平均カバレッジをほぼ2倍にし、いくつかのドメインでそれを6倍以上に増やすことができます。
関連論文リスト
- Gradient and Uncertainty Enhanced Sequential Sampling for Global Fit [0.0]
本稿では、GUESS(Gradient and Uncertainty Enhanced Sequential Smpling)と呼ばれる、グローバル適合のための新しいサンプリング戦略を提案する。
GUESSは, 実験例における他のサロゲート型戦略と比較して, 平均的な試料効率で達成された。
論文 参考訳(メタデータ) (2023-09-29T19:49:39Z) - Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文 参考訳(メタデータ) (2022-08-17T08:04:41Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Active Learning on a Budget: Opposite Strategies Suit High and Low
Budgets [8.937905773981702]
予算が大きければ,非定型的な点が最善であるのに対して,典型的な点が低予算で問合せされるべきであることを示す。
低予算に適したディープラーニング戦略であるTypiClustを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:09:05Z) - Enhancing Prototypical Few-Shot Learning by Leveraging the Local-Level
Strategy [75.63022284445945]
既存の作業では、ローカルレベルの機能をすべて混ぜることで、イメージレベルの機能に基づいた、いくつかのショットモデルを構築することがよくあります。
a) 基地と新規カテゴリーの識別的位置バイアスを回避するための地域非依存のトレーニング戦略,(b) 地域レベルの特徴の正確な比較を捉えるための新しい地域レベルの類似度尺度を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:45:15Z) - Semi-Supervised Off Policy Reinforcement Learning [3.48396189165489]
健康状態の情報はよくコード化されておらず、臨床記録に埋め込まれることが多い。
そこで本研究では,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。
提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。
論文 参考訳(メタデータ) (2020-12-09T00:59:12Z) - Maximizing Welfare with Incentive-Aware Evaluation Mechanisms [18.304048425012503]
本稿では,その特徴をコストで修正できる戦略的個人によって,入力が制御される評価問題を提案する。
学習者は特徴を部分的に観察することしかできず、品質スコアに関して個人を分類することを目的としている。
論文 参考訳(メタデータ) (2020-11-03T19:00:43Z) - Reinforcement Learning with Neural Networks for Quantum Multiple
Hypothesis Testing [8.006109507455038]
ニューラルネットワーク(RLNN)による強化学習は、最近多くの問題に対して大きな可能性を証明した。
我々は RLNN を用いて, 実験的に実現可能な局所適応型測定手法を提案する。
我々の知る限りでは、局所的プロトコルと集合的プロトコルの間に大きなギャップがある、最も単純な状態集合である。
論文 参考訳(メタデータ) (2020-10-16T18:49:23Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。