論文の概要: Symbolic Relational Deep Reinforcement Learning based on Graph Neural
Networks
- arxiv url: http://arxiv.org/abs/2009.12462v3
- Date: Mon, 26 Jul 2021 14:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:21:34.478115
- Title: Symbolic Relational Deep Reinforcement Learning based on Graph Neural
Networks
- Title(参考訳): グラフニューラルネットワークに基づく記号的関係深部強化学習
- Authors: Jarom\'ir Janisch, Tom\'a\v{s} Pevn\'y and Viliam Lis\'y
- Abstract要約: 対象、関係、操作の観点から自然に定義される関係問題における強化学習に焦点をあてる。
本稿では,グラフニューラルネットワークと自己回帰ポリシー分解に基づく深いRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on reinforcement learning (RL) in relational problems that are
naturally defined in terms of objects, their relations, and manipulations.
These problems are characterized by variable state and action spaces, and
finding a fixed-length representation, required by most existing RL methods, is
difficult, if not impossible. We present a deep RL framework based on graph
neural networks and auto-regressive policy decomposition that naturally works
with these problems and is completely domain-independent. We demonstrate the
framework in three very distinct domains and we report the method's competitive
performance and impressive zero-shot generalization over different problem
sizes. In goal-oriented BlockWorld, we demonstrate multi-parameter actions with
pre-conditions. In SysAdmin, we show how to select multiple objects
simultaneously. In the classical planning domain of Sokoban, the method trained
exclusively on 10x10 problems with three boxes solves 89% of 15x15 problems
with five boxes.
- Abstract(参考訳): 対象,関係,操作の観点で自然に定義される関係性問題において,強化学習(rl)に注目した。
これらの問題は変数状態と作用空間によって特徴づけられ、既存のRL法で必要とされる固定長表現を見つけることは不可能ではないが困難である。
本稿では、グラフニューラルネットワークに基づく深いrlフレームワークと、これらの問題に自然に対処し、完全にドメインに依存しない自己回帰ポリシー分解を提案する。
このフレームワークを3つの非常に異なる領域で実演し、異なる問題サイズに対する競合性能と印象的なゼロショットの一般化を報告する。
目標指向のBlockWorldでは、プレ条件でマルチパラメータアクションを実演する。
SysAdminでは、複数のオブジェクトを同時に選択する方法を示します。
ソコバンの古典的な計画領域では、3箱で10×10問題のみを訓練し、15×15問題の89%を5箱で解決する。
関連論文リスト
- Look, Learn and Leverage (L$^3$): Mitigating Visual-Domain Shift and Discovering Intrinsic Relations via Symbolic Alignment [19.700374722227107]
学習過程を3つの相に分解する新しい学習フレームワークであるLook, Learn and Leverage (L$3$)を提案する。
関係発見モデルは、ソースドメイン上でトレーニングすることができ、視覚領域シフトや本質的な関係が欠如している場合には、事前学習された関係発見モデルを直接再利用し、良好な性能を維持することができる。
論文 参考訳(メタデータ) (2024-08-30T15:53:48Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Reconciling Spatial and Temporal Abstractions for Goal Representation [0.4813333335683418]
ゴール表現は階層強化学習(HRL)アルゴリズムの性能に影響する。
近年の研究では、時間的に抽象的な環境動態を保った表現が困難な問題の解決に成功していることが示されている。
本稿では,空間的および時間的目標抽象化の両方において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:33:30Z) - What Planning Problems Can A Relational Neural Network Solve? [91.53684831950612]
本稿では,計画問題のポリシーを表すリレーショナルニューラルネットワークの回路複雑性解析について述べる。
回路幅と深さの増大に関して,計画問題には3つの一般的なクラスが存在することを示す。
また、政策学習のためのニューラルネットワーク設計におけるこの分析の有用性についても解説する。
論文 参考訳(メタデータ) (2023-12-06T18:47:28Z) - Deep Explainable Relational Reinforcement Learning: A Neuro-Symbolic
Approach [18.38878415765146]
本稿では,ニューラル世界とシンボリック世界の両方の長所を生かした,説明可能な強化学習(DERRL)を提案する。
DERRLは、シンボリックプランニングからのリレーショナル表現と制約を深層学習と組み合わせて解釈可能なポリシーを抽出する。
これらのポリシーは、それぞれの決定(あるいは行動)がどのように到着するかを説明する論理的なルールの形式です。
論文 参考訳(メタデータ) (2023-04-17T15:11:40Z) - On the Difficulty of Generalizing Reinforcement Learning Framework for
Combinatorial Optimization [6.935838847004389]
現実の応用とグラフ上の組合せ最適化問題(COP)は、コンピュータサイエンスにおける標準的な課題である。
このアプローチの基本原理は、ノードのローカル情報とグラフ構造化データの両方を符号化するグラフニューラルネットワーク(GNN)をデプロイすることである。
我々は,クラウド上のセキュリティ対応電話機のクローン割り当てを古典的二次代入問題 (QAP) として,深層RLモデルが他の難題の解法に一般的に適用可能であるか否かを調査する。
論文 参考訳(メタデータ) (2021-08-08T19:12:04Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。