論文の概要: Dealing with Sparse Rewards Using Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2203.13424v1
- Date: Fri, 25 Mar 2022 02:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 12:35:47.230326
- Title: Dealing with Sparse Rewards Using Graph Neural Networks
- Title(参考訳): グラフニューラルネットワークを用いたスパース報酬の処理
- Authors: Matvey Gerasyov, Ilya Makarov
- Abstract要約: 本稿では,グラフ畳み込みネットワークに基づく近年の報酬形成手法の2つの修正を提案する。
スパース報酬を伴う3次元環境におけるナビゲーション作業におけるソリューションの有効性を実証的に検証した。
また、3次元環境における重要な遷移に対応するエッジに学習された注意が集中していることを示す。
- 参考スコア(独自算出の注目度): 0.5801621787540266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning in partially observable environments is a
difficult task in itself, and can be further complicated by a sparse reward
signal. Most tasks involving navigation in three-dimensional environments
provide the agent with extremely limited information. Typically, the agent
receives a visual observation input from the environment and is rewarded once
at the end of the episode. A good reward function could substantially improve
the convergence of reinforcement learning algorithms for such tasks. The
classic approach to increase the density of the reward signal is to augment it
with supplementary rewards. This technique is called the reward shaping. In
this study, we propose two modifications of one of the recent reward shaping
methods based on graph convolutional networks: the first involving advanced
aggregation functions, and the second utilizing the attention mechanism. We
empirically validate the effectiveness of our solutions for the task of
navigation in a 3D environment with sparse rewards. For the solution featuring
attention mechanism, we are also able to show that the learned attention is
concentrated on edges corresponding to important transitions in 3D environment.
- Abstract(参考訳): 部分的に観察可能な環境での深層強化学習は、それ自体は難しい作業であり、スパース報酬信号によってさらに複雑になる可能性がある。
三次元環境におけるナビゲーションに関わるほとんどのタスクは、エージェントに極めて限られた情報を提供する。
通常、エージェントは環境から視覚的観察入力を受け取り、エピソードの終わりに一度報酬が与えられる。
優れた報酬関数は、そのようなタスクに対する強化学習アルゴリズムの収束を大幅に改善することができる。
報酬信号の密度を高める古典的なアプローチは、それを補足的な報酬で増やすことである。
この技法は報酬形成と呼ばれる。
本研究では,グラフ畳み込みネットワークに基づく報酬生成手法の2つの改良点を提案する。
我々は,3次元環境におけるナビゲーション作業におけるソリューションの有効性を,少ない報酬で実証的に検証した。
また,注意機構を特徴とする解については,学習した注意が3次元環境における重要な遷移に対応するエッジに集中していることを示すことができる。
関連論文リスト
- Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network [80.19054069988559]
自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。
本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。
実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-08-10T14:32:18Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - Point Discriminative Learning for Unsupervised Representation Learning
on 3D Point Clouds [54.31515001741987]
3次元点雲上での教師なし表現学習のための点識別学習法を提案する。
我々は、中間レベルとグローバルレベルの特徴に新しい点識別損失を課すことにより、これを達成した。
提案手法は強力な表現を学習し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-04T15:11:48Z) - Reward prediction for representation learning and reward shaping [0.8883733362171032]
報酬予測のための自己監督による状態表現の学習を提案する。
我々は、ポリシー学習中に報酬予測器を用いて報酬を形作ることにより、既成のrlエージェントのトレーニングを強化する。
論文 参考訳(メタデータ) (2021-05-07T11:29:32Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Learning Intrinsic Symbolic Rewards in Reinforcement Learning [7.101885582663675]
低次元のシンボル木の形で高密度報酬を発見する方法を提案する。
得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。
論文 参考訳(メタデータ) (2020-10-08T00:02:46Z) - Reward Propagation Using Graph Convolutional Networks [61.32891095232801]
本稿では,グラフ表現学習のアイデアを活用した潜在機能学習フレームワークを提案する。
我々のアプローチは、強化学習の確率論的推論と組み合わせて、重要な要素として使用するグラフ畳み込みネットワークに依存している。
論文 参考訳(メタデータ) (2020-10-06T04:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。