論文の概要: Learning to Search and Searching to Learn for Generalization in Planning
- arxiv url: http://arxiv.org/abs/2605.25720v1
- Date: Mon, 25 May 2026 11:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.834646
- Title: Learning to Search and Searching to Learn for Generalization in Planning
- Title(参考訳): 計画の一般化を学ぶための探索と探索の学習
- Authors: Michael Aichmüller, Yannik Hesse, Hector Geffner,
- Abstract要約: 統合学習は深層強化(DRL)の中心的課題であり続けている
スパース・リワード領域では、リアルタイム検索による標準的な探索は効果がない。
我々は、ゼロから問題を解決するために自己改善の$mathrmAstar$を提案する。
- 参考スコア(独自算出の注目度): 6.30853901017231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combinatorial generalization remains a central challenge in Deep Reinforcement Learning (DRL). Classical planning provides a simple yet challenging setting to study this problem through explicit relational descriptions, without requiring learning from perception. In sparse-reward domains, standard RL exploration via real-time search is ineffective, and learning-based planning methods often rely on expert demonstrations, hindsight relabeling, or random walks from the goal state. In contrast, planners rely on best-first search methods such as $\mathrm{A}^\star$ to solve problems from scratch. We propose a self-improving $\mathrm{WA}^\star$ learning framework in combination with a value heuristic represented by a Relational Graph Neural Network: the heuristic guides search, and the resulting search data updates the heuristic via $Q$-learning. This loop yields heuristics that can function as general policies and solve new instances even without search, where DRL otherwise fails, as we show on puzzles such as Sokoban, PushWorld, The Witness, and the 2023 International Planning Competition benchmarks. Notably, we demonstrate strong zero-shot generalization: For example, heuristics trained on Blocksworld instances with fewer than 30 blocks successfully solve instances with 488 blocks without search.
- Abstract(参考訳): 組合せ一般化は、Deep Reinforcement Learning(DRL)において依然として中心的な課題である。
古典的なプランニングは、知覚から学ぶ必要なしに、明示的な関係記述を通じてこの問題を研究するのにシンプルだが挑戦的な設定を提供する。
スパース・リワード領域では、リアルタイム検索による標準RL探索は非効率であり、学習ベースの計画手法は、しばしば専門家によるデモンストレーション、後見のレザベリング、あるいは目標状態からのランダムウォークに依存している。
対照的にプランナーは、問題をゼロから解くために$\mathrm{A}^\star$のような最優先の探索手法に頼る。
本稿では,リレーショナルグラフニューラルネットワークで表現される値ヒューリスティックと組み合わせて,自己改善型$\mathrm{WA}^\star$学習フレームワークを提案する。
このループは、ソコバン、PushWorld、The Witness、2023年の国際計画コンペティションベンチマークといったパズルに示されているように、一般的なポリシーとして機能し、検索なしでも新しいインスタンスを解決できるヒューリスティックな結果をもたらす。
例えば、30ブロック未満のBlocksworldインスタンスでトレーニングされたヒューリスティックスは、検索なしで488ブロックのインスタンスをうまく解決します。
関連論文リスト
- UPath: Universal Planner Across Topological Heterogeneity For Grid-Based Pathfinding [43.22339935902436]
本研究では,タスクを一般化できるモデルの設計により,普遍的な予測器を設計することで,このギャップを埋める。
我々の経験的アプローチは、A*の計算労力を2.2倍に縮める一方で、平均係数2.2の3%以内の解を提供することを示唆している。
論文 参考訳(メタデータ) (2026-02-27T08:34:56Z) - Learning Admissible Heuristics for A*: Theory and Practice [8.408138419383747]
ディープラーニングアプローチは、しばしば許容性を無視し、トレーニングデータ以外の一般化に関して制限された保証を提供する。
本稿では,これら2つの制約に対処する。まず,制約付き最適化問題として学習を行い,学習中に許容度を強制する損失関数であるクロスエントロピー適応性(CEA)を導入する。
ルービックキューブ領域では、圧縮されたパターンデータベース(PDB)のガイダンスよりもはるかに強いほぼ許容値が得られる。
論文 参考訳(メタデータ) (2025-09-26T17:51:26Z) - Inference-time Scaling of Diffusion Models through Classical Search [90.77272206228946]
本稿では,局所的およびグローバルな探索を編成し,生成空間を効率的にナビゲートする汎用フレームワークを提案する。
我々は,計画,オフライン強化学習,画像生成など,さまざまな課題領域に対するアプローチを評価した。
これらの結果は,古典探索が拡散モデルにおける推論時間スケーリングの原理的かつ実践的な基礎を提供することを示している。
論文 参考訳(メタデータ) (2025-05-29T16:22:40Z) - Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T08:28:57Z) - A Training Data Recipe to Accelerate A* Search with Language Models [3.037409201025504]
A*のような検索アルゴリズムを備えた大規模言語モデル(LLM)は、拡張された推論とスケーラブルな推論の約束を持っている。
我々は,A*探索アルゴリズムの要件を LLM の要件から実験的に切り離して,この課題を一般化する。
提案手法は,解を見つけるのに要する反復回数を最大15倍に削減し,壁面通過速度を最大5倍に向上させる。
論文 参考訳(メタデータ) (2024-07-13T19:21:44Z) - Learning Search-Space Specific Heuristics Using Neural Networks [13.226916009242347]
PDDLトレーニングインスタンスが1つあることを前提として,スクラッチからゴール間距離推定器を学習する。
この比較的単純なシステムは驚くほどよく機能し、よく知られたドメインに依存しない古典と競合することがある。
論文 参考訳(メタデータ) (2023-06-06T21:22:32Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。