論文の概要: NARS vs. Reinforcement learning: ONA vs. Q-Learning
- arxiv url: http://arxiv.org/abs/2212.12517v1
- Date: Fri, 23 Dec 2022 18:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 17:12:35.238091
- Title: NARS vs. Reinforcement learning: ONA vs. Q-Learning
- Title(参考訳): NARS vs. 強化学習: ONA vs. Q-Learning
- Authors: Ali Beikmohammadi
- Abstract要約: 強化学習は、機械学習コミュニティでこの種のタスクを扱うための最もよく知られているアプローチである。
我々は、NARSの能力を調査し、NARSがRLの代替となる可能性を持っているかどうかという疑問に答えることを検討している。
具体的には、Open AIのジムが開発したいくつかの環境で、$Q$-LearningとONAを比較しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the realistic scenarios is taking a sequence of optimal actions to do
a task. Reinforcement learning is the most well-known approach to deal with
this kind of task in the machine learning community. Finding a suitable
alternative could always be an interesting and out-of-the-box matter.
Therefore, in this project, we are looking to investigate the capability of
NARS and answer the question of whether NARS has the potential to be a
substitute for RL or not. Particularly, we are making a comparison between
$Q$-Learning and ONA on some environments developed by an Open AI gym. The
source code for the experiments is publicly available in the following link:
\url{https://github.com/AliBeikmohammadi/OpenNARS-for-Applications/tree/master/misc/Python}.
- Abstract(参考訳): 現実的なシナリオの1つは、タスクを行うための最適なアクションのシーケンスを取ることです。
強化学習は、機械学習コミュニティでこの種のタスクを扱うための最もよく知られているアプローチである。
適切な代替品を見つけることは、常に興味深く、すぐに使える問題だ。
そこで本プロジェクトでは, NARS の能力について検討し, NARS が RL の代替となる可能性を持っているかどうかという疑問に答える。
特に、オープンaiジムで開発されたいくつかの環境で、q$-learningとonaを比較しています。
実験のソースコードは以下のリンクで公開されている。 \url{https://github.com/AliBeikmohammadi/OpenNARS-for-Applications/tree/master/misc/Python}。
関連論文リスト
- Comparing NARS and Reinforcement Learning: An Analysis of ONA and
$Q$-Learning Algorithms [0.0]
強化学習(RL)は、機械学習におけるシーケンスベースのタスクを解決するための一般的なアプローチとして登場した。
注目を集めたそのような代替手段の1つは、汎用的な認知推論フレームワークである非軸性推論システム(NARS)である。
本稿では,シークエンスに基づく課題の解決におけるRLの代替として,NARSの可能性を探究する。
論文 参考訳(メタデータ) (2023-03-17T10:48:50Z) - Open-Ended Reinforcement Learning with Neural Reward Functions [2.4366811507669115]
高次元ロボット環境では、ハーフチェエタのフロントフリップやヒューマノイドの片足ランニングなど、幅広い興味深いスキルを学びます。
ピクセルベースのMontezumaのRevenge環境では、我々の手法は最小限の変更でも機能し、アイテムとのインタラクションや多様な場所の訪問に関わる複雑なスキルを学ぶ。
論文 参考訳(メタデータ) (2022-02-16T15:55:22Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Learning Bounds for Open-Set Learning [31.889685733689557]
オープン・セット・ラーニング(OSL, Open-set Learning)では, 授業中に見つからないクラスからのサンプルが存在する。
OSL問題に対処するために、補助的オープンセットリスク(AOSR)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-30T03:10:06Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Neural Architecture Search on ImageNet in Four GPU Hours: A
Theoretically Inspired Perspective [88.39981851247727]
トレーニングフリーニューラルアーキテクチャサーチ(TE-NAS)という新しいフレームワークを提案する。
TE-NASは、ニューラルネットワークカーネル(NTK)のスペクトルと入力空間内の線形領域の数を分析することによってアーキテクチャをランク付けする。
1) この2つの測定はニューラルネットワークのトレーサビリティと表現性を示し, (2) ネットワークのテスト精度と強く相関することを示した。
論文 参考訳(メタデータ) (2021-02-23T07:50:44Z) - NLPGym -- A toolkit for evaluating RL agents on Natural Language
Processing Tasks [2.5760935151452067]
NLPGymはオープンソースのPythonツールキットで、標準のNLPタスクに対してインタラクティブなテキスト環境を提供する。
研究の基盤となるRLアルゴリズムの異なる6つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2020-11-16T20:58:35Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。