論文の概要: XLVIN: eXecuted Latent Value Iteration Nets
- arxiv url: http://arxiv.org/abs/2010.13146v2
- Date: Sun, 6 Dec 2020 16:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:13:57.638189
- Title: XLVIN: eXecuted Latent Value Iteration Nets
- Title(参考訳): xlvin: 潜在価値イテレーションネットの実行
- Authors: Andreea Deac, Petar Veli\v{c}kovi\'c, Ognjen Milinkovi\'c, Pierre-Luc
Bacon, Jian Tang, Mladen Nikoli\'c
- Abstract要約: VIN(Value Iteration Networks)は、深い強化学習に計画アルゴリズムを組み込む一般的な手法として登場した。
提案するXLVINは, 対照的な自己教師付き学習, グラフ表現学習, ニューラルアルゴリズム推論にまたがる最近の発展を総合して提案する。
- 参考スコア(独自算出の注目度): 17.535799331279417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value Iteration Networks (VINs) have emerged as a popular method to
incorporate planning algorithms within deep reinforcement learning, enabling
performance improvements on tasks requiring long-range reasoning and
understanding of environment dynamics. This came with several limitations,
however: the model is not incentivised in any way to perform meaningful
planning computations, the underlying state space is assumed to be discrete,
and the Markov decision process (MDP) is assumed fixed and known. We propose
eXecuted Latent Value Iteration Networks (XLVINs), which combine recent
developments across contrastive self-supervised learning, graph representation
learning and neural algorithmic reasoning to alleviate all of the above
limitations, successfully deploying VIN-style models on generic environments.
XLVINs match the performance of VIN-like models when the underlying MDP is
discrete, fixed and known, and provides significant improvements to model-free
baselines across three general MDP setups.
- Abstract(参考訳): バリューイテレーションネットワーク(vins)は、深層強化学習に計画アルゴリズムを組み込む一般的な方法として登場し、長距離推論と環境ダイナミクスの理解を必要とするタスクのパフォーマンス改善を可能にしている。
しかし、このモデルは有意義な計画計算の実行にインセンティブを与えられず、基礎となる状態空間は離散的であると仮定され、マルコフ決定過程(MDP)は固定され、知られていると仮定される。
提案するeXecuted Latent Value Iteration Networks (XLVINs) は, 対照的な自己教師付き学習, グラフ表現学習, ニューラルネットワーク推論を対象とし, 上記の制限をすべて緩和し, VINスタイルのモデルを汎用環境に展開することに成功した。
XLVINは、基礎となるMDPが離散的、固定的、既知のときにVINライクなモデルのパフォーマンスと一致し、3つの一般的なMDPセットアップでモデルフリーのベースラインを大幅に改善する。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Continuous Neural Algorithmic Planners [3.9715120586766584]
XLVINは、深層強化学習エージェントの値アルゴリズムをシミュレートするグラフニューラルネットワークである。
環境に関する特権情報にアクセスせずに、モデルフリーのイテレーションプランニングを可能にする。
ニューラルネットワークによる推論が高次元連続制御設定にどのように影響するかを示す。
論文 参考訳(メタデータ) (2022-11-29T00:19:35Z) - Operator Splitting Value Iteration [27.505231431328255]
政策評価と制御の両問題に対してOS-VI(Operator Splitting Value Iteration)を導入する。
OS-VIは、モデルが十分に正確であれば、はるかに高速な収束率を達成する。
従来のDynaアーキテクチャとは異なり、OS-Dynaはモデル近似誤差の存在下でも正しい値関数に収束する。
論文 参考訳(メタデータ) (2022-11-25T07:34:26Z) - JAX-DIPS: Neural bootstrapping of finite discretization methods and
application to elliptic problems with discontinuities [0.0]
この戦略は、偏微分方程式のニューラルネットワークサロゲートモデルを効率的に訓練するために使用できる。
提案したニューラルブートストラップ法(以下 NBM と呼ぶ)は,PDE システムの有限離散化残基の評価に基づいている。
NBMは他のPINNタイプのフレームワークとメモリとトレーニングの速度で競合することを示す。
論文 参考訳(メタデータ) (2022-10-25T20:13:26Z) - Neural Algorithmic Reasoners are Implicit Planners [17.6650448492151]
価値反復にインスパイアされた暗黙のプランナーのクラスを研究します。
提案手法は,高次元潜在空間における全ての計画計算を実行する。
XLVINsがバリューイテレーションと密接に一致できることを実証的に検証します。
論文 参考訳(メタデータ) (2021-10-11T17:29:20Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Graph neural induction of value iteration [22.582832003418826]
任意の環境モデルにまたがって、VIの中間ステップを直接監督する値反復(VI)アルゴリズムを実行するグラフニューラルネットワーク(GNN)を提案する。
結果は、GNNが様々なアウト・オブ・ディストリビューションテストで好適なメトリクスとポリシーを回収し、価値の反復を正確にモデル化できることを示唆している。
論文 参考訳(メタデータ) (2020-09-26T14:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。