論文の概要: Symbolic Network: Generalized Neural Policies for Relational MDPs
- arxiv url: http://arxiv.org/abs/2002.07375v2
- Date: Mon, 29 Jun 2020 17:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 18:58:19.478897
- Title: Symbolic Network: Generalized Neural Policies for Relational MDPs
- Title(参考訳): シンボリックネットワーク:リレーショナルMDPのための一般化ニューラルポリシー
- Authors: Sankalp Garg, Aniket Bajpai, Mausam
- Abstract要約: マルコフ決定過程(英: Markov Decision Process, RMDP)は、単一の確率的計画領域のすべてのインスタンスを表現する一階述語である。
RDDLの確率計画言語で表現されたRMDPを解くための最初のニューラルネットワークであるSymNetを提案する。
- 参考スコア(独自算出の注目度): 19.437796523368373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A Relational Markov Decision Process (RMDP) is a first-order representation
to express all instances of a single probabilistic planning domain with
possibly unbounded number of objects. Early work in RMDPs outputs generalized
(instance-independent) first-order policies or value functions as a means to
solve all instances of a domain at once. Unfortunately, this line of work met
with limited success due to inherent limitations of the representation space
used in such policies or value functions. Can neural models provide the missing
link by easily representing more complex generalized policies, thus making them
effective on all instances of a given domain?
We present SymNet, the first neural approach for solving RMDPs that are
expressed in the probabilistic planning language of RDDL. SymNet trains a set
of shared parameters for an RDDL domain using training instances from that
domain. For each instance, SymNet first converts it to an instance graph and
then uses relational neural models to compute node embeddings. It then scores
each ground action as a function over the first-order action symbols and node
embeddings related to the action. Given a new test instance from the same
domain, SymNet architecture with pre-trained parameters scores each ground
action and chooses the best action. This can be accomplished in a single
forward pass without any retraining on the test instance, thus implicitly
representing a neural generalized policy for the whole domain. Our experiments
on nine RDDL domains from IPPC demonstrate that SymNet policies are
significantly better than random and sometimes even more effective than
training a state-of-the-art deep reactive policy from scratch.
- Abstract(参考訳): リレーショナルマルコフ決定過程(Relational Markov Decision Process, RMDP)は、単一の確率的計画領域のすべてのインスタンスを、おそらく無界なオブジェクト数で表現する一階述語である。
RMDPの初期の研究は、ドメインのすべてのインスタンスを一度に解決する手段として一般化された(インスタンスに依存しない)1次ポリシーや値関数を出力した。
残念ながら、このような方針や値関数で使われる表現空間固有の制限のために、この一連の作業は限られた成功を収めた。
ニューラルネットワークは、より複雑な一般化ポリシーを簡単に表現することで、欠落したリンクを提供することができるだろうか?
RDDLの確率計画言語で表現されるRMDPを解くための最初のニューラルネットワークであるSymNetを提案する。
SymNetはそのドメインからトレーニングインスタンスを使用してRDDLドメインの共有パラメータセットをトレーニングする。
それぞれのインスタンスに対して、SymNetはまずそれをインスタンスグラフに変換し、次にリレーショナルニューラルネットワークを使用してノードの埋め込みを計算する。
次に、各グラウンドアクションを、アクションに関連する一階アクションシンボルとノード埋め込みの関数としてスコアする。
同じドメインから新しいテストインスタンスが与えられた場合、事前トレーニングされたパラメータを持つSymNetアーキテクチャは、各基底アクションをスコアし、最良のアクションを選択する。
これは、テストインスタンスを再トレーニングすることなく、単一のフォワードパスで達成できるため、ドメイン全体の神経一般化ポリシーを暗黙的に表現することができる。
IPPC の 9 つのRDDL ドメインに対する実験により,SymNet のポリシーは,現在最先端の深層反応ポリシーをゼロからトレーニングするよりも,ランダムで,時には効果的であることが示された。
関連論文リスト
- Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。
近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。
本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:12:14Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Signed Diverse Multiplex Networks: Clustering and Inference [4.070200285321219]
設定は多重バージョンに拡張され、すべてのレイヤが同じノードのコレクションを持ち、SGRDPGに従う。
まず,ネットワーク構築過程におけるエッジの符号の保持が,推定とクラスタリングの精度の向上につながることを示す。
第二に、新しいアルゴリズムを用いることで、階層の強い一貫したクラスタリングと、部分空間推定の高精度を保証できる。
論文 参考訳(メタデータ) (2024-02-14T19:37:30Z) - ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Dynamic Instance Domain Adaptation [109.53575039217094]
教師なしのドメイン適応に関するほとんどの研究は、各ドメインのトレーニングサンプルがドメインラベルを伴っていると仮定している。
適応的な畳み込みカーネルを持つ動的ニューラルネットワークを開発し、各インスタンスにドメインに依存しない深い特徴を適応させるために、インスタンス適応残差を生成する。
我々のモデルはDIDA-Netと呼ばれ、複数の一般的な単一ソースおよび複数ソースのUDAデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-09T20:05:54Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - Multi-Source Domain Adaptation for Object Detection [52.87890831055648]
我々は、Divide-and-Merge Spindle Network (DMSN)と呼ばれる、より高速なR-CNNベースのフレームワークを提案する。
DMSNはドメイン非ネイティブを同時に強化し、識別力を維持することができる。
擬似目標部分集合の最適パラメータを近似する新しい擬似学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-30T03:17:20Z) - Randomized Policy Learning for Continuous State and Action MDPs [8.109579454896128]
我々は、連続状態と行動空間を持つMDPに対する一般的なポリシー反復アルゴリズムであるtextttRANDPOLを提案する。
課題のある環境で数値性能を示し、それらをディープニューラルネットワークベースのアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-08T02:49:47Z) - A Model-driven Deep Neural Network for Single Image Rain Removal [52.787356046951494]
完全解釈可能なネットワーク構造を持つモデル駆動型ディープニューラルネットワークを提案する。
雨を表現するための畳み込み辞書学習機構に基づいて,新しい単一画像デレーニングモデルを提案する。
すべてのレインカーネルとオペレータは自動的に抽出され、レイン層とクリーンなバックグラウンド層の両方の特徴を忠実に特徴付けることができる。
論文 参考訳(メタデータ) (2020-05-04T09:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。