論文の概要: Beyond Single-Step Updates: Reinforcement Learning of Heuristics with Limited-Horizon Search
- arxiv url: http://arxiv.org/abs/2511.10264v1
- Date: Fri, 14 Nov 2025 01:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.781206
- Title: Beyond Single-Step Updates: Reinforcement Learning of Heuristics with Limited-Horizon Search
- Title(参考訳): 単段階更新を超えて:限定水平探索によるヒューリスティックの強化学習
- Authors: Gal Hadar, Forest Agostinelli, Shahaf S. Shperberg,
- Abstract要約: ヒューリスティックサーチはそのような問題を解決するための標準的な手法であり、任意の状態から目標に対するコストを見積もる関数に依存している。
この研究は、状態サンプリングと更新の両方を組み込んだ一般化されたアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.8030668571605446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many sequential decision-making problems can be formulated as shortest-path problems, where the objective is to reach a goal state from a given starting state. Heuristic search is a standard approach for solving such problems, relying on a heuristic function to estimate the cost to the goal from any given state. Recent approaches leverage reinforcement learning to learn heuristics by applying deep approximate value iteration. These methods typically rely on single-step Bellman updates, where the heuristic of a state is updated based on its best neighbor and the corresponding edge cost. This work proposes a generalized approach that enhances both state sampling and heuristic updates by performing limited-horizon searches and updating each state's heuristic based on the shortest path to the search frontier, incorporating both edge costs and the heuristic values of frontier states.
- Abstract(参考訳): 多くのシーケンシャルな意思決定問題は最短経路問題として定式化することができ、目的は与えられた開始状態からゴール状態に到達することである。
ヒューリスティックサーチ(英: Heuristic search)は、任意の状態から目標に対するコストを見積もるヒューリスティック関数に依存する、そのような問題を解決するための標準的なアプローチである。
最近のアプローチでは、深い近似値の反復を適用することで、強化学習を活用してヒューリスティックスを学ぶ。
これらの方法は典型的にはシングルステップのベルマン更新に依存しており、状態のヒューリスティックは、その最もよい隣人と対応するエッジコストに基づいて更新される。
本研究は,探索フロンティアへの最短経路に基づいて,限定水平探索を行い,各状態のヒューリスティックを更新することにより,状態サンプリングとヒューリスティック更新の両立を図り,エッジコストとフロンティア状態のヒューリスティック値の両方を取り入れた一般化されたアプローチを提案する。
関連論文リスト
- TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Stochastic Direct Search Method for Blind Resource Allocation [6.574808513848414]
線形制約付きおよび微分自由最適化のための直接探索法(パターン探索とも呼ばれる)について検討する。
直接探索法は決定論的かつ制約のない場合において有限の後悔を達成できることを示す。
そこで本研究では,T2/3$のオーダを後悔させるようなダイレクトサーチの簡単な拡張を提案する。
論文 参考訳(メタデータ) (2022-10-11T07:40:45Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - A Novel Long-term Iterative Mining Scheme for Video Salient Object
Detection [54.53335983750033]
短期的方法論は視覚システムの実際のメカニズムと矛盾する。
そこで本研究では,VSOD を長期にわたって実施する新しい VSOD アプローチを提案する。
提案手法は、広く使用されている5つのベンチマークデータセットにおいて、ほぼ全てのSOTAモデルより優れている。
論文 参考訳(メタデータ) (2022-06-20T04:27:47Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Near-Optimal Algorithms for Autonomous Exploration and Multi-Goal
Stochastic Shortest Path [26.27529098205787]
我々はLim & Auer (2012) が提唱する漸進的な自律探査問題を再考する。
この設定では、エージェントは、$L$制御可能な状態に到達するために、最適に近い目標条件の一連のポリシーを学ぶことを目的としている。
既存のものよりも強いサンプル境界を持つ新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-05-22T03:54:15Z) - Adaptive Multi-Goal Exploration [118.40427257364729]
我々は、AdaGoalが$epsilon$-optimal goal-conditioned policyを学習する目的を達成するためにどのように使えるかを示す。
AdaGoalは、ゴール条件の深い強化学習のための既存の手法の高レベルなアルゴリズム構造に固定されている。
論文 参考訳(メタデータ) (2021-11-23T17:59:50Z) - Avoiding local minima in Variational Quantum Algorithms with Neural
Networks [0.0]
変分量子アルゴリズムは、短期計算の先導パラダイムとして登場してきた。
本稿では,勾配景観問題の事例をベンチマークする2つのアルゴリズムを提案する。
提案手法は,コストランドスケープが短期量子コンピューティングアルゴリズムを改善するための実りある道であることを示唆している。
論文 参考訳(メタデータ) (2021-04-07T07:07:28Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Community detection using fast low-cardinality semidefinite programming [94.4878715085334]
局所的な更新を一般化し、ライデン-k-カットから導かれる半定緩和を最大化する、新しい低カルチナリティアルゴリズムを提案する。
提案アルゴリズムはスケーラビリティが高く,最先端のアルゴリズムより優れ,実時間では性能が向上し,追加コストがほとんどない。
論文 参考訳(メタデータ) (2020-12-04T15:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。