論文の概要: Handling Infinite Domain Parameters in Planning Through Best-First Search with Delayed Partial Expansions
- arxiv url: http://arxiv.org/abs/2509.03953v1
- Date: Thu, 04 Sep 2025 07:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.087303
- Title: Handling Infinite Domain Parameters in Planning Through Best-First Search with Delayed Partial Expansions
- Title(参考訳): 遅延部分展開によるベストファースト探索による計画における無限領域パラメータの扱い
- Authors: Ángel Aso-Mollar, Diego Aineto, Enrico Scala, Eva Onaindia,
- Abstract要約: 自動計画では、制御パラメータは連続的な数値決定変数を導入して標準アクション表現を拡張する。
既存の最先端のアプローチは、他の時間的制約や数値的制約と共に、組み込み制約として制御パラメータを主に扱っている。
本稿では,制御パラメータを体系的な探索方式における真の決定点として明示的に扱う,効率的な代替案を提案する。
- 参考スコア(独自算出の注目度): 11.009425634308043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In automated planning, control parameters extend standard action representations through the introduction of continuous numeric decision variables. Existing state-of-the-art approaches have primarily handled control parameters as embedded constraints alongside other temporal and numeric restrictions, and thus have implicitly treated them as additional constraints rather than as decision points in the search space. In this paper, we propose an efficient alternative that explicitly handles control parameters as true decision points within a systematic search scheme. We develop a best-first, heuristic search algorithm that operates over infinite decision spaces defined by control parameters and prove a notion of completeness in the limit under certain conditions. Our algorithm leverages the concept of delayed partial expansion, where a state is not fully expanded but instead incrementally expands a subset of its successors. Our results demonstrate that this novel search algorithm is a competitive alternative to existing approaches for solving planning problems involving control parameters.
- Abstract(参考訳): 自動計画では、制御パラメータは連続的な数値決定変数を導入して標準アクション表現を拡張する。
既存の最先端のアプローチは、主に時間的制約や数値的制約と並んで、制御パラメータを組込み制約として扱うため、探索空間における決定ポイントとしてではなく、追加制約として暗黙的に扱います。
本稿では,制御パラメータを,体系的な探索方式における真の決定点として明示的に扱う,効率的な代替案を提案する。
我々は,制御パラメータによって定義された無限の決定空間上で動作し,一定の条件下での極限における完全性の概念を証明する,最優先のヒューリスティック探索アルゴリズムを開発した。
我々のアルゴリズムは、状態が完全に拡張されない代わりに、その後継者のサブセットを漸進的に拡張するという遅延部分展開の概念を利用する。
提案手法は,制御パラメータを含む計画問題の解決に有効な手法であることを示す。
関連論文リスト
- Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。
既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。
これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:48Z) - Online Cluster-Based Parameter Control for Metaheuristic [0.0]
本稿では,クラスタベースメタヒューリスティックスのためのクラスタベース適応(CPA)と呼ばれる,汎用的なオンラインパラメータチューニング手法を提案する。
主な考え方は、パラメータ探索空間内の有望な領域の同定と、これらの領域に関する新しいパラメータの生成である。
得られた結果は統計的に解析され、高度な自動チューニング手法を含む最先端のアルゴリズムと比較される。
論文 参考訳(メタデータ) (2025-04-07T14:48:30Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Belief-State Query Policies for User-Aligned POMDPs [18.821166966365315]
本稿では,エージェントの動作に対するユーザの制約や嗜好を部分的に観察可能な環境で表現するための新しい枠組みを提案する。
このような制約を初めて公式に解析し、パラメータ化されたBSQポリシーの期待されるコスト関数w.r.tはそのパラメータが凸ではないことを証明した。
この理論的な結果から, gPOMDPエージェントの動作を保証されたユーザアライメントで最適化するアルゴリズムが誕生した。
論文 参考訳(メタデータ) (2024-05-24T20:04:51Z) - On the convergence of adaptive first order methods: proximal gradient and alternating minimization algorithms [4.307128674848627]
AdaPG$q,r$は、より大きな段階的なポリシーと改善された下位境界を提供することで、既存の結果を統一し、拡張するフレームワークである。
パラメータの$q$と$r$の異なる選択について論じ、数値シミュレーションにより結果の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-30T10:29:43Z) - Online Constraint Tightening in Stochastic Model Predictive Control: A
Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。
制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。
提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文 参考訳(メタデータ) (2023-10-04T16:22:02Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Stochastic Direct Search Method for Blind Resource Allocation [6.574808513848414]
線形制約付きおよび微分自由最適化のための直接探索法(パターン探索とも呼ばれる)について検討する。
直接探索法は決定論的かつ制約のない場合において有限の後悔を達成できることを示す。
そこで本研究では,T2/3$のオーダを後悔させるようなダイレクトサーチの簡単な拡張を提案する。
論文 参考訳(メタデータ) (2022-10-11T07:40:45Z) - Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。
LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。
本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。