論文の概要: Discovering Intrinsic Reward with Contrastive Random Walk
- arxiv url: http://arxiv.org/abs/2204.10976v1
- Date: Sat, 23 Apr 2022 02:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 09:47:44.228560
- Title: Discovering Intrinsic Reward with Contrastive Random Walk
- Title(参考訳): 対照的ランダムウォークによる内在的報酬の発見
- Authors: Zixuan Pan, Zihao Wei, Yidong Huang, Aditya Gupta
- Abstract要約: 対照的にランダムウォークは、ニューラルネットワークの助けを借りてランダムウォークの遷移行列を定義する。
提案手法は,非タボラスパース報酬シナリオにおいて有効である。
また,適応的再起動と適切な温度がコントラストランダムウォークの性能に重要であることも確認した。
- 参考スコア(独自算出の注目度): 2.5960593866103014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this paper is to demonstrate the efficacy of using Contrastive
Random Walk as a curiosity method to achieve faster convergence to the optimal
policy.Contrastive Random Walk defines the transition matrix of a random walk
with the help of neural networks. It learns a meaningful state representation
with a closed loop. The loss of Contrastive Random Walk serves as an intrinsic
reward and is added to the environment reward. Our method works well in
non-tabular sparse reward scenarios, in the sense that our method receives the
highest reward within the same iterations compared to other methods. Meanwhile,
Contrastive Random Walk is more robust. The performance doesn't change much
with different random initialization of environments. We also find that
adaptive restart and appropriate temperature are crucial to the performance of
Contrastive Random Walk.
- Abstract(参考訳): 本研究の目的は、好奇心の手法としてContrastive Random Walkを用いることにより、最適ポリシーへの迅速な収束を実現することであり、Contrastive Random Walkはニューラルネットワークを用いてランダムウォークの遷移行列を定義することである。
閉じたループで有意義な状態表現を学習する。
対照的なランダムウォークの喪失は、内在的な報酬となり、環境報酬に追加される。
我々の手法は,他の手法と比較して,同じイテレーション内で最も高い報酬を受け取るという意味で,非タブラルスパース報酬シナリオでうまく機能する。
一方、Contrastive Random Walkはより堅牢だ。
環境のランダム初期化によってパフォーマンスが大きく変わることはない。
また,適応的再起動と適切な温度がコントラストランダムウォークの性能に重要であることも確認した。
関連論文リスト
- Learning Randomized Algorithms with Transformers [8.556706939126146]
本稿では,深層ニューラルネットワーク,特にトランスフォーマーモデルをランダム化して拡張する。
ランダム化されたアルゴリズムは、学習を通じて、純粋にデータと客観的に駆動された方法でトランスフォーマーに組み込むことができることを初めて実証する。
論文 参考訳(メタデータ) (2024-08-20T13:13:36Z) - Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization [39.740287682191884]
ロバストマルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。
このいわゆる長方性条件は、単に計算上の問題によって動機付けられている。
政策段階の手法を導入し,その収束性を証明する。
論文 参考訳(メタデータ) (2023-09-03T07:34:26Z) - Random Boxes Are Open-world Object Detectors [71.86454597677387]
ランダム領域の提案によって訓練された分類器が最先端のオープンワールドオブジェクト検出(OWOD)を実現することを示す。
我々はRandBoxを提案する。RandBoxはR-CNNベースのアーキテクチャで、各トレーニングでランダムな提案を訓練する。
RandBoxは、すべてのメトリクスにおいて、過去の最先端を著しく上回っている。
論文 参考訳(メタデータ) (2023-07-17T05:08:32Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization [63.09932240840656]
我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
論文 参考訳(メタデータ) (2021-04-29T14:54:11Z) - Improved device-independent randomness expansion rates using two sided
randomness [3.4376560669160394]
デバイスに依存しないランダム性拡張プロトコルは、初期乱数列を取り、より長い乱数列を生成することを目的としている。
両面のランダム性によって得られる改善の可能性を検討する。
また、入力ランダム性を再利用する修正プロトコルについても検討する。
論文 参考訳(メタデータ) (2021-03-12T19:49:17Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Interpretable random forest models through forward variable selection [0.0]
損失関数としてCRPS(Continuous Rank probability score)を用いた前方変数選択法を開発した。
本手法のオランダにおける日次最大気温予測の統計的後処理への応用を実証する。
論文 参考訳(メタデータ) (2020-05-11T13:56:49Z) - Vertex-reinforced Random Walk for Network Embedding [42.99597051744645]
ネットワーク埋め込みにおけるランダムウォークの基本的問題について検討する。
本研究では,無作為歩行が立ち止まったセットから飛び出すのを助けるために,エクスプロレーション探索機構を導入する。
実験結果から,提案手法は最先端のランダムウォーク法よりも大きなマージンを達成できることがわかった。
論文 参考訳(メタデータ) (2020-02-11T15:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。