Fugu-MT 論文翻訳(概要): Understanding Sample Generation Strategies for Learning Heuristic Functions in Classical Planning

論文の概要: Understanding Sample Generation Strategies for Learning Heuristic Functions in Classical Planning

arxiv url: http://arxiv.org/abs/2211.13316v1
Date: Wed, 23 Nov 2022 21:34:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 15:08:11.197534
Title: Understanding Sample Generation Strategies for Learning Heuristic Functions in Classical Planning
Title（参考訳）: 古典計画におけるヒューリスティック関数学習のためのサンプル生成戦略の理解
Authors: R. V. Bettker, P. P. Minini, A. G. Pereira, M. Ritt
Abstract要約: 本研究では,従来の計画タスクにおいて,コスト・ツー・ゴールの推定値を持つ状態のサンプルに基づいて,ニューラルネットワークを用いた優れた関数学習の課題について検討する。その結果、サンプルに含まれる状態空間の領域と、コスト・ツー・ゴール推定の品質の2つの要因が学習の質を決定することがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of learning good heuristic functions for classical planning tasks with neural networks based on samples that are states with their cost-to-goal estimates. It is well known that the learned model quality depends on the training data quality. Our main goal is to understand better the influence of sample generation strategies on the performance of a greedy best-first heuristic search guided by a learned heuristic function. In a set of controlled experiments, we find that two main factors determine the quality of the learned heuristic: the regions of the state space included in the samples and the quality of the cost-to-goal estimates. Also, these two factors are interdependent: having perfect estimates of cost-to-goal is insufficient if an unrepresentative part of the state space is included in the sample set. Additionally, we study the effects of restricting samples to only include states that could be evaluated when solving a given task and the effects of adding samples with high-value estimates. Based on our findings, we propose practical strategies to improve the quality of learned heuristics: three strategies that aim to generate more representative states and two strategies that improve the cost-to-goal estimates. Our resulting neural network heuristic has higher coverage than a basic satisficing heuristic. Also, compared to a baseline learned heuristic, our best neural network heuristic almost doubles the mean coverage and can increase it for some domains by more than six times.
Abstract（参考訳）: 本研究では,従来の計画課題に対するニューラルネットワークを用いた優れたヒューリスティック関数の学習問題について,コスト・ツー・ゴール推定の状態に基づく検討を行った。学習したモデル品質がトレーニングデータ品質に依存することはよく知られている。我々の主な目標は,学習したヒューリスティック関数に導かれる欲望のよい第一ヒューリスティック探索の性能に対する,サンプル生成戦略の影響をよりよく理解することである。制御された実験のセットでは、学習されたヒューリスティックの質を決定する2つの主要な要因が示されている:サンプルに含まれる状態空間の領域とコストからゴールへの見積もりの品質である。また、これら2つの因子は相互依存的である: 状態空間の非表現的な部分が標本集合に含まれる場合、コスト・トゥ・ゴールの完全な推定は不十分である。さらに、与えられたタスクを解く際に評価できる状態のみを含むサンプルの制限効果と、高評価値のサンプルを追加する効果について検討した。本研究は,学習ヒューリスティックスの品質向上のための実践的戦略として,より代表的な状態を生成するための3つの戦略と,コスト・ツー・ゴール推定を改善する2つの戦略を提案する。得られたニューラルネットワークヒューリスティックは,基本的満足なヒューリスティックよりも高いカバレッジを有する。また、ベースライン学習ヒューリスティックと比較して、最良のニューラルネットワークヒューリスティックは平均カバレッジをほぼ2倍にし、いくつかのドメインでそれを6倍以上に増やすことができます。

関連論文リスト

Agnostic Reinforcement Learning: Foundations and Algorithms [4.07926531936425]
この論文は、学習理論の観点から関数近似を伴うRLの統計的複雑さを厳密に検証する。学習者は与えられたクラス$Pi$の最良のポリシーを見つけようとするが、$Pi$が基礎となるタスクに対して最適なポリシーを含んでいるという保証はない。この包括的枠組みの中で、理論的な保証付き新しい学習アルゴリズムを設計し、任意のアルゴリズムの基本性能境界を特徴づける。
論文参考訳（メタデータ） (2025-06-02T17:12:24Z)
COSMOS: Predictable and Cost-Effective Adaptation of LLMs [21.91455944905485]
大規模言語モデル(LLM)は、多種多様な適応戦略を用いることで、多くのタスクにわたって顕著なパフォーマンスを達成する。最小限のコストで適応結果を効率的に推定する統合予測フレームワークであるCOSMOSを紹介する。
論文参考訳（メタデータ） (2025-04-30T02:06:26Z)
Optimal Fidelity Estimation from Binary Measurements for Discrete and Continuous Variable Systems [6.253919624802852]
連続変数(CV)システムでは、変位パリティ測定によって測定できるウィグナー関数を利用する。 Fock や Gaussian のような特定の興味のある対象状態に対して、このサンプルの複雑さはウィグナー函数の$L1$-ノルムによって特徴づけられる。汎用ブラックボックスモデルでは,任意の対象状態に対して,対象状態の滑らかな$L1$-normにより,忠実度推定のための最適なサンプル複雑性が特徴づけられる。
論文参考訳（メタデータ） (2024-09-06T11:07:55Z)
Hyperparameters in Continual Learning: A Reality Check [53.30082523545212]
連続学習(CL)は、可塑性(新しいタスクを学ぶ)と安定性(事前知識を保持する)のトレードオフをバランスしながら、一連のタスクでモデルを訓練することを目的としている。
論文参考訳（メタデータ） (2024-03-14T03:13:01Z)
Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。本稿では,関数近似に適合する2つの実験計画戦略を提案する。そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文参考訳（メタデータ） (2024-01-10T14:40:23Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Gradient and Uncertainty Enhanced Sequential Sampling for Global Fit [0.0]
本稿では、GUESS(Gradient and Uncertainty Enhanced Sequential Smpling)と呼ばれる、グローバル適合のための新しいサンプリング戦略を提案する。 GUESSは, 実験例における他のサロゲート型戦略と比較して, 平均的な試料効率で達成された。
論文参考訳（メタデータ） (2023-09-29T19:49:39Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
Metric Residual Networks for Sample Efficient Goal-conditioned Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。 GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文参考訳（メタデータ） (2022-08-17T08:04:41Z)
Value-Consistent Representation Learning for Data-Efficient Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文参考訳（メタデータ） (2022-06-25T03:02:25Z)
Exploratory Landscape Analysis is Strongly Sensitive to the Sampling Strategy [8.246980996934347]
明示的な問題表現が利用できないブラックボックス最適化では、少数のサンプルポイントから特徴値を近似する必要がある。本研究では,サンプリング法とサンプルサイズが特徴値の近似値の品質に与える影響を解析する。
論文参考訳（メタデータ） (2020-06-19T13:45:13Z)
Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。ゼロ次監視政策改善(ZOSPI)を提案する。 ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文参考訳（メタデータ） (2020-06-11T16:49:23Z)
Optimistic Agent: Accurate Graph-Based Value Estimation for More Successful Visual Navigation [18.519303422753534]
先行知識(または経験)の取り込み、観察された視覚的手がかりを用いた新しい環境への適応、そして早期に諦めることなく楽観的に探索することの3つの主な理由により、この能力は大きいと論じる。これは現在、強化学習(RL)に基づく最先端のビジュアルナビゲーション手法に欠けている。本稿では,相対的対象位置の事前知識を外部から学習し,ニューラルグラフを構築してモデルに統合することを提案する。
論文参考訳（メタデータ） (2020-04-07T09:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。