論文の概要: XLVIN: eXecuted Latent Value Iteration Nets
- arxiv url: http://arxiv.org/abs/2010.13146v2
- Date: Sun, 6 Dec 2020 16:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:13:57.638189
- Title: XLVIN: eXecuted Latent Value Iteration Nets
- Title(参考訳): xlvin: 潜在価値イテレーションネットの実行
- Authors: Andreea Deac, Petar Veli\v{c}kovi\'c, Ognjen Milinkovi\'c, Pierre-Luc
Bacon, Jian Tang, Mladen Nikoli\'c
- Abstract要約: VIN(Value Iteration Networks)は、深い強化学習に計画アルゴリズムを組み込む一般的な手法として登場した。
提案するXLVINは, 対照的な自己教師付き学習, グラフ表現学習, ニューラルアルゴリズム推論にまたがる最近の発展を総合して提案する。
- 参考スコア(独自算出の注目度): 17.535799331279417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value Iteration Networks (VINs) have emerged as a popular method to
incorporate planning algorithms within deep reinforcement learning, enabling
performance improvements on tasks requiring long-range reasoning and
understanding of environment dynamics. This came with several limitations,
however: the model is not incentivised in any way to perform meaningful
planning computations, the underlying state space is assumed to be discrete,
and the Markov decision process (MDP) is assumed fixed and known. We propose
eXecuted Latent Value Iteration Networks (XLVINs), which combine recent
developments across contrastive self-supervised learning, graph representation
learning and neural algorithmic reasoning to alleviate all of the above
limitations, successfully deploying VIN-style models on generic environments.
XLVINs match the performance of VIN-like models when the underlying MDP is
discrete, fixed and known, and provides significant improvements to model-free
baselines across three general MDP setups.
- Abstract(参考訳): バリューイテレーションネットワーク(vins)は、深層強化学習に計画アルゴリズムを組み込む一般的な方法として登場し、長距離推論と環境ダイナミクスの理解を必要とするタスクのパフォーマンス改善を可能にしている。
しかし、このモデルは有意義な計画計算の実行にインセンティブを与えられず、基礎となる状態空間は離散的であると仮定され、マルコフ決定過程(MDP)は固定され、知られていると仮定される。
提案するeXecuted Latent Value Iteration Networks (XLVINs) は, 対照的な自己教師付き学習, グラフ表現学習, ニューラルネットワーク推論を対象とし, 上記の制限をすべて緩和し, VINスタイルのモデルを汎用環境に展開することに成功した。
XLVINは、基礎となるMDPが離散的、固定的、既知のときにVINライクなモデルのパフォーマンスと一致し、3つの一般的なMDPセットアップでモデルフリーのベースラインを大幅に改善する。
関連論文リスト
- HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Continuous Neural Algorithmic Planners [3.9715120586766584]
XLVINは、深層強化学習エージェントの値アルゴリズムをシミュレートするグラフニューラルネットワークである。
環境に関する特権情報にアクセスせずに、モデルフリーのイテレーションプランニングを可能にする。
ニューラルネットワークによる推論が高次元連続制御設定にどのように影響するかを示す。
論文 参考訳(メタデータ) (2022-11-29T00:19:35Z) - JAX-DIPS: Neural bootstrapping of finite discretization methods and
application to elliptic problems with discontinuities [0.0]
この戦略は、偏微分方程式のニューラルネットワークサロゲートモデルを効率的に訓練するために使用できる。
提案したニューラルブートストラップ法(以下 NBM と呼ぶ)は,PDE システムの有限離散化残基の評価に基づいている。
NBMは他のPINNタイプのフレームワークとメモリとトレーニングの速度で競合することを示す。
論文 参考訳(メタデータ) (2022-10-25T20:13:26Z) - Neural Algorithmic Reasoners are Implicit Planners [17.6650448492151]
価値反復にインスパイアされた暗黙のプランナーのクラスを研究します。
提案手法は,高次元潜在空間における全ての計画計算を実行する。
XLVINsがバリューイテレーションと密接に一致できることを実証的に検証します。
論文 参考訳(メタデータ) (2021-10-11T17:29:20Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Graph neural induction of value iteration [22.582832003418826]
任意の環境モデルにまたがって、VIの中間ステップを直接監督する値反復(VI)アルゴリズムを実行するグラフニューラルネットワーク(GNN)を提案する。
結果は、GNNが様々なアウト・オブ・ディストリビューションテストで好適なメトリクスとポリシーを回収し、価値の反復を正確にモデル化できることを示唆している。
論文 参考訳(メタデータ) (2020-09-26T14:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。