論文の概要: Three Dogmas of Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.10583v1
- Date: Mon, 15 Jul 2024 10:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:40:56.915865
- Title: Three Dogmas of Reinforcement Learning
- Title(参考訳): 強化学習の3つのドッグマ
- Authors: David Abel, Mark K. Ho, Anna Harutyunyan,
- Abstract要約: 現代の強化学習は、少なくとも3つのドッグマによって条件付けられている。
ひとつは環境スポットライトであり、エージェントではなく環境をモデリングする傾向を示している。
2つ目は、適応ではなく、タスクの解決策を見つけるものとしての学習の扱いです。
3つ目は報酬仮説であり、すべての目標と目的は報奨信号としてよく考えることができるというものである。
- 参考スコア(独自算出の注目度): 13.28320102989073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern reinforcement learning has been conditioned by at least three dogmas. The first is the environment spotlight, which refers to our tendency to focus on modeling environments rather than agents. The second is our treatment of learning as finding the solution to a task, rather than adaptation. The third is the reward hypothesis, which states that all goals and purposes can be well thought of as maximization of a reward signal. These three dogmas shape much of what we think of as the science of reinforcement learning. While each of the dogmas have played an important role in developing the field, it is time we bring them to the surface and reflect on whether they belong as basic ingredients of our scientific paradigm. In order to realize the potential of reinforcement learning as a canonical frame for researching intelligent agents, we suggest that it is time we shed dogmas one and two entirely, and embrace a nuanced approach to the third.
- Abstract(参考訳): 現代の強化学習は、少なくとも3つのドッグマによって条件付けられている。
ひとつは環境スポットライトであり、エージェントではなく環境をモデリングする傾向を示している。
2つ目は、適応ではなく、タスクの解決策を見つけるものとしての学習の扱いです。
3つ目は報酬仮説であり、すべての目標と目的は報酬信号の最大化とよく考えることができる。
これら3つのドッグマは、強化学習の科学と考えるものの多くを形作っている。
それぞれのドッグマは、フィールドの開発において重要な役割を担ってきたが、我々はそれらを表面に持ち込み、それが我々の科学パラダイムの基本的な要素であるかどうかを反映する時が来た。
知的エージェント研究の正統的な枠組みとしての強化学習の可能性を実現するため,我々はドグマを1つと2つ完全に取り除き,第3のアプローチを受け入れるべき時が来たことを示唆する。
関連論文リスト
- A Definition of Continual Reinforcement Learning [69.56273766737527]
強化学習問題の標準的な見方では、エージェントの目標は、長期的な報酬を最大化するポリシーを効率的に識別することである。
継続的強化学習とは、最高のエージェントが決して学習をやめない状態を指す。
エージェントの分析とカタログ化のための新しい数学的言語を通じて「学習をやめることはない」エージェントの概念を定式化する。
論文 参考訳(メタデータ) (2023-07-20T17:28:01Z) - Building a Culture of Reproducibility in Academic Research [55.22219308265945]
再現性(reproducibility)は、研究者が「抽象的な」議論をしない理想であるが、願望が学界の冷酷な現実と出会うと、しばしば「消える」という理想である。
このエッセイでは、他の優先順位に対する要求のバランスをとりながら、運用方法に不満を抱く個人的な経験を共有します。
論文 参考訳(メタデータ) (2022-12-27T16:03:50Z) - LED: Lexicon-Enlightened Dense Retriever for Large-Scale Retrieval [68.85686621130111]
そこで本研究では,高密度なレトリバーをレキシコン認識表現モデルに整合させることを提案する。
提案手法を3つの公開ベンチマークで評価した結果,教師と同等のレキシコン・アウェア・レトリバーにより,提案手法が一貫した,重要な改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-29T15:09:28Z) - An Enactivist-Inspired Mathematical Model of Cognition [5.8010446129208155]
我々は、関連する文献で慎重に確認した5つの基本的なエノクティビズム認知科学のテレットを定式化する。
次に、これらの実践主義的信条に従う認知システムについて話すための数学的枠組みを開発する。
論文 参考訳(メタデータ) (2022-06-10T13:03:47Z) - Dealing with Sparse Rewards Using Graph Neural Networks [0.15540058359482856]
本稿では,グラフ畳み込みネットワークに基づく近年の報酬形成手法の2つの修正を提案する。
スパース報酬を伴う3次元環境におけるナビゲーション作業におけるソリューションの有効性を実証的に検証した。
また、3次元環境における重要な遷移に対応するエッジに学習された注意が集中していることを示す。
論文 参考訳(メタデータ) (2022-03-25T02:42:07Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement
Learning [7.6146285961466]
我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。
我々の手法は,人間の訓練者がサブゴールの知識を共有するのを容易にする。
論文 参考訳(メタデータ) (2021-04-13T14:28:48Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Unsupervisedly Learned Representations: Should the Quest be Over? [0.0]
強化学習が動物と同じ精度の表現を学習できることを実証する。
これらの観察の要旨は、シミュレーション環境で訓練される可能性のある教師なし学習の競争パラダイムのさらなる探索が無駄になる可能性があるということである。
論文 参考訳(メタデータ) (2020-01-21T13:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。