論文の概要: Delta Schema Network in Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.09950v2
- Date: Wed, 8 Jul 2020 05:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:24:06.880394
- Title: Delta Schema Network in Model-based Reinforcement Learning
- Title(参考訳): モデルベース強化学習におけるデルタスキーマネットワーク
- Authors: Andrey Gorodetskiy, Alexandra Shlychkova, Aleksandr I. Panov
- Abstract要約: この研究は、伝達学習の非効率性である人工知能の未解決問題に焦点が当てられている。
環境データからオブジェクトとアクション間の論理的関係を抽出できるスキーマネットワーク手法を拡張している。
本稿では,デルタネットワーク(DSN)をトレーニングし,環境の将来状態を予測し,前向きな報酬をもたらす計画行動を示すアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 125.99533416395765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work is devoted to unresolved problems of Artificial General
Intelligence - the inefficiency of transfer learning. One of the mechanisms
that are used to solve this problem in the area of reinforcement learning is a
model-based approach. In the paper we are expanding the schema networks method
which allows to extract the logical relationships between objects and actions
from the environment data. We present algorithms for training a Delta Schema
Network (DSN), predicting future states of the environment and planning actions
that will lead to positive reward. DSN shows strong performance of transfer
learning on the classic Atari game environment.
- Abstract(参考訳): この研究は、伝達学習の非効率性である人工知能の未解決問題に焦点を当てている。
強化学習の分野でこの問題を解決するために用いられるメカニズムの1つはモデルに基づくアプローチである。
本稿では,環境データからオブジェクトとアクション間の論理的関係を抽出できるスキーマネットワーク手法を拡張している。
我々は、デルタスキーマネットワーク(dsn)のトレーニング、環境の将来の状態の予測、積極的な報酬につながる行動計画のためのアルゴリズムを提案する。
DSNは、古典的なアタリゲーム環境において、転送学習の強い性能を示す。
関連論文リスト
- Contrastive Representation Learning for Dynamic Link Prediction in Temporal Networks [1.9389881806157312]
本稿では,時間ネットワークの表現を学習するための自己教師付き手法を提案する。
本稿では、時間的ネットワークの時間的参照経路を介して情報の流れをモデル化するための、繰り返しメッセージパッシングニューラルネットワークアーキテクチャを提案する。
提案手法は、Enron、COLAB、Facebookのデータセットでテストされる。
論文 参考訳(メタデータ) (2024-08-22T22:50:46Z) - Dynamic Encoding and Decoding of Information for Split Learning in
Mobile-Edge Computing: Leveraging Information Bottleneck Theory [1.1151919978983582]
Split Learning(スプリットラーニング)は、MLモデルを2つの部分(エンコーダとデコーダ)に分割する、プライバシ保護の分散学習パラダイムである。
モバイルエッジコンピューティングでは、エンコーダがユーザ機器(UE)に、デコーダがエッジネットワークに、分割学習によってネットワーク機能を訓練することができる。
本稿では,送信リソース消費の動的バランスと,共有潜在表現の情報化を両立させるためのフレームワークとトレーニング機構を提案する。
論文 参考訳(メタデータ) (2023-09-06T07:04:37Z) - Common Knowledge Learning for Generating Transferable Adversarial
Examples [60.1287733223249]
本稿では,代用(ソース)モデルにより敵のサンプルを生成するブラックボックス攻撃の重要タイプに着目した。
既存の手法では、ソースモデルとターゲットモデルが異なるタイプのDNNアーキテクチャのものである場合、不満足な逆転が生じる傾向にある。
本稿では,より優れたネットワーク重みを学習し,敵対的な例を生成するための共通知識学習(CKL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-01T09:07:12Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Model-Based Machine Learning for Communications [110.47840878388453]
モデルベースのアルゴリズムと機械学習をハイレベルな視点で組み合わせるための既存の戦略を見直します。
通信受信機の基本的なタスクの一つであるシンボル検出に注目する。
論文 参考訳(メタデータ) (2021-01-12T19:55:34Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。
任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。
この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文 参考訳(メタデータ) (2020-06-09T17:18:34Z) - Deep Learning of Dynamic Subsurface Flow via Theory-guided Generative
Adversarial Network [0.0]
動的偏微分方程式(PDE)の解法として理論誘導生成逆数ネットワーク(TgGAN)を提案する。
不均一モデルパラメータを持つ動的地下流れに対してTgGANを提案する。
数値計算により,TgGANモデルは動的PDEの深層学習において堅牢で信頼性が高いことが示された。
論文 参考訳(メタデータ) (2020-06-02T02:53:26Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。