論文の概要: Reward Shaping Using Convolutional Neural Network
- arxiv url: http://arxiv.org/abs/2210.16956v1
- Date: Sun, 30 Oct 2022 21:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:39:31.113389
- Title: Reward Shaping Using Convolutional Neural Network
- Title(参考訳): 畳み込みニューラルネットワークを用いた報酬生成
- Authors: Hani Sami, Hadi Otrok, Jamal Bentahar, Azzam Mourad, Ernesto Damiani
- Abstract要約: 畳み込みニューラルネットワーク(CNN)を用いた潜在的報酬形成機構を提案する。
提案したVIN-RSは、Hidden Markov Modelのメッセージパッシング機構を用いて、計算ラベルで訓練されたCNNを埋め込む。
その結果,最先端技術と比較して学習速度と最大累積報酬が向上したことを示す。
- 参考スコア(独自算出の注目度): 13.098264947461432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose Value Iteration Network for Reward Shaping
(VIN-RS), a potential-based reward shaping mechanism using Convolutional Neural
Network (CNN). The proposed VIN-RS embeds a CNN trained on computed labels
using the message passing mechanism of the Hidden Markov Model. The CNN
processes images or graphs of the environment to predict the shaping values.
Recent work on reward shaping still has limitations towards training on a
representation of the Markov Decision Process (MDP) and building an estimate of
the transition matrix. The advantage of VIN-RS is to construct an effective
potential function from an estimated MDP while automatically inferring the
environment transition matrix. The proposed VIN-RS estimates the transition
matrix through a self-learned convolution filter while extracting environment
details from the input frames or sampled graphs. Due to (1) the previous
success of using message passing for reward shaping; and (2) the CNN planning
behavior, we use these messages to train the CNN of VIN-RS. Experiments are
performed on tabular games, Atari 2600 and MuJoCo, for discrete and continuous
action space. Our results illustrate promising improvements in the learning
speed and maximum cumulative reward compared to the state-of-the-art.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワーク(cnn)を用いた報酬生成機構であるvin-rs(value iteration network for reward shaping)を提案する。
提案したVIN-RSは、Hidden Markov Modelのメッセージパッシング機構を用いて、計算ラベルで訓練されたCNNを埋め込む。
CNNは環境の画像やグラフを処理して、シェーピング値を予測する。
報酬形成に関する最近の研究は、マルコフ決定過程(MDP)の表現と遷移行列の推定に関する訓練に制限がある。
VIN-RSの利点は、環境遷移行列を自動的に推論しながら、推定されたMDPから有効なポテンシャル関数を構築することである。
提案するvin-rsは,入力フレームやサンプルグラフから環境詳細を抽出しながら,自己学習畳み込みフィルタを用いて遷移行列を推定する。
1) 報酬形成にメッセージパッシングを用いた以前の成功,(2) CNN計画行動により, VIN-RS の CNN の訓練にこれらのメッセージを使用する。
テーブルゲームであるatari 2600とmujocoで、離散アクション空間と連続アクション空間の実験が行われている。
その結果,最先端技術と比較して学習速度と最大累積報酬が向上したことを示す。
関連論文リスト
- Multi-Grid Graph Neural Networks with Self-Attention for Computational Mechanics [0.0]
本稿では,GNNにおける自己認識とメッセージパッシングを融合した新しいモデルを提案する。
自己注意に基づく動的メッシュプルーニング手法が提案され,より堅牢なGNNベースのマルチグリッド手法が提案されている。
BERTに基づく新たな自己教師型トレーニング手法を提案し,25%のRMSE削減を実現した。
論文 参考訳(メタデータ) (2024-09-18T11:47:48Z) - Convolutional Neural Network Compression via Dynamic Parameter Rank
Pruning [4.7027290803102675]
動的パラメータランクプルーニングによるCNN圧縮の効率的なトレーニング手法を提案する。
提案手法は, 分類性能の維持や向上を図りながら, かなりの蓄えを得られることを示す。
論文 参考訳(メタデータ) (2024-01-15T23:52:35Z) - PICNN: A Pathway towards Interpretable Convolutional Neural Networks [12.31424771480963]
フィルタと画像のクラス間の絡み合いを軽減する新しい経路を導入する。
我々はBernoulliサンプリングを用いて、学習可能なフィルタクラス対応行列からフィルタクラスタ割り当て行列を生成する。
提案手法の有効性を,広く使用されている10のネットワークアーキテクチャ上で評価する。
論文 参考訳(メタデータ) (2023-12-19T11:36:03Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Invertible Neural Networks for Graph Prediction [22.140275054568985]
本研究では,ディープ・インバーチブル・ニューラルネットワークを用いた条件生成について述べる。
私たちの目標は,前処理と後処理の予測と生成を同時に行うことにあるので,エンドツーエンドのトレーニングアプローチを採用しています。
論文 参考訳(メタデータ) (2022-06-02T17:28:33Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z) - CNNTOP: a CNN-based Trajectory Owner Prediction Method [1.3793594968500604]
軌道所有者予測は、パーソナライズされたレコメンデーションや都市計画など、多くの応用の基盤となっている。
既存の手法は主にRNNを用いて軌道を意味的にモデル化する。
CNNに基づくトラジェクトリオーナ予測(CNNTOP)手法を提案する。
論文 参考訳(メタデータ) (2020-01-05T07:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。