論文の概要: Graph Value Iteration
- arxiv url: http://arxiv.org/abs/2209.09608v1
- Date: Tue, 20 Sep 2022 10:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:29:40.347548
- Title: Graph Value Iteration
- Title(参考訳): グラフ値の反復
- Authors: Dieqiao Feng, Carla P. Gomes, Bart Selman
- Abstract要約: ディープ強化学習(Dep Reinforcement Learning, RL)は、2人のプレイヤーによるゲームや科学的な発見など、様々な検索領域で成功している。
最大の難点は、学習フレームワークが解決計画を見つけない限り、報酬信号がゼロであることである。
本稿では,グラフ探索をグラフ値繰り返しで拡張し,ハードプランニングインスタンスを解くドメイン非依存の手法を提案する。
- 参考スコア(独自算出の注目度): 35.87805182676444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deep Reinforcement Learning (RL) has been successful in
various combinatorial search domains, such as two-player games and scientific
discovery. However, directly applying deep RL in planning domains is still
challenging. One major difficulty is that without a human-crafted heuristic
function, reward signals remain zero unless the learning framework discovers
any solution plan. Search space becomes \emph{exponentially larger} as the
minimum length of plans grows, which is a serious limitation for planning
instances with a minimum plan length of hundreds to thousands of steps.
Previous learning frameworks that augment graph search with deep neural
networks and extra generated subgoals have achieved success in various
challenging planning domains. However, generating useful subgoals requires
extensive domain knowledge. We propose a domain-independent method that
augments graph search with graph value iteration to solve hard planning
instances that are out of reach for domain-specialized solvers. In particular,
instead of receiving learning signals only from discovered plans, our approach
also learns from failed search attempts where no goal state has been reached.
The graph value iteration component can exploit the graph structure of local
search space and provide more informative learning signals. We also show how we
use a curriculum strategy to smooth the learning process and perform a full
analysis of how graph value iteration scales and enables learning.
- Abstract(参考訳): 近年、深層強化学習(rl)は、2人のプレイヤーによるゲームや科学的発見など様々な組み合わせ探索領域で成功を収めている。
しかし、計画領域に深いRLを直接適用することは依然として困難である。
最大の難点は、人造ヒューリスティック関数がなければ、学習フレームワークが解決計画を見つけない限り、報酬信号はゼロのままである。
計画の最小長が増加するにつれて、探索空間は "emph{exponentially larger" となり、プランの最小長が数百から数千のステップを持つ計画インスタンスにとって深刻な制限となる。
ディープニューラルネットワークと余分に生成されたサブゴールでグラフ検索を増強する以前の学習フレームワークは、さまざまな挑戦的な計画領域で成功している。
しかし、有用なサブゴールを生成するには広範なドメイン知識が必要である。
本稿では,グラフ探索をグラフ値反復で拡張し,ドメイン固有化解法に到達できないハードプランニングインスタンスを解くドメイン独立手法を提案する。
特に,発見された計画からのみ学習信号を受け取るのではなく,目標状態が到達していない探索の試みから学習する。
グラフ値反復成分は、局所探索空間のグラフ構造を利用して、より情報的な学習信号を提供する。
また、カリキュラム戦略を用いて学習プロセスを円滑にし、グラフ値の反復のスケール方法と学習を可能にする方法も示す。
関連論文リスト
- A Schema-aware Logic Reformulation for Graph Reachability [0.0]
本稿では,インスタンスの高レベルな概念化を活用することで,グラフパスを自動的に排除・ソートする戦略を提案する。
目的は、時間、空間要求、バックトラック数の観点から従来のアルゴリズムを改善することができるグラフ到達可能性シナリオの新しい一階述語論理の再構成を得ることである。
論文 参考訳(メタデータ) (2024-10-03T14:39:49Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Learning Graph Search Heuristics [48.83557172525969]
本稿では,新しいニューラルネットワークと学習アルゴリズムであるPHIL(Path Heuristic with Imitation Learning)について述べる。
我々の関数は、ノード距離の推測に有用なグラフ埋め込みを学習し、グラフサイズに依存しない一定時間で実行し、テスト時にA*のようなアルゴリズムに容易に組み込むことができる。
実験の結果、PHILはベンチマークデータセットの最先端の手法と比較して平均58.5%の探索ノード数を削減している。
論文 参考訳(メタデータ) (2022-12-07T22:28:00Z) - Reinforced Continual Learning for Graphs [18.64268861430314]
本稿では,アーキテクチャベースとメモリベースのアプローチを組み合わせたグラフ連続学習戦略を提案する。
タスク・インクリメンタル・ラーニングとクラス・インクリメンタル・ラーニング・セッティングの両方において,いくつかのグラフ連続学習ベンチマーク問題を用いて数値検証を行った。
論文 参考訳(メタデータ) (2022-09-04T07:49:59Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Graph Self-Supervised Learning: A Survey [73.86209411547183]
SSL(Self-supervised Learning)は、グラフデータの有望でトレンドの学習パラダイムとなっています。
グラフデータにSSL技術を用いた既存のアプローチをタイムリーかつ包括的にレビューします。
論文 参考訳(メタデータ) (2021-02-27T03:04:21Z) - World Model as a Graph: Learning Latent Landmarks for Planning [12.239590266108115]
計画は人間の知性の目印です。
著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。
本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
論文 参考訳(メタデータ) (2020-11-25T02:49:21Z) - Self-supervised Learning on Graphs: Deep Insights and New Direction [66.78374374440467]
自己教師付き学習(SSL)は、ラベルのないデータにドメイン固有のプレテキストタスクを作成することを目的としている。
グラフニューラルネットワーク(GNN)の形でのグラフ領域へのディープラーニングの一般化への関心が高まっている。
論文 参考訳(メタデータ) (2020-06-17T20:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。