論文の概要: Program-Based Strategy Induction for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.16668v1
- Date: Mon, 26 Feb 2024 15:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:23:55.806964
- Title: Program-Based Strategy Induction for Reinforcement Learning
- Title(参考訳): 強化学習のためのプログラムベース戦略誘導
- Authors: Carlos G. Correa and Thomas L. Griffiths and Nathaniel D. Daw
- Abstract要約: ベイジアンプログラム誘導を用いて、プログラムによって実行された戦略を発見することで、戦略の単純さがそれらの効果と引き換えにできる。
古典的な漸進的な学習では難しい、あるいは予期せぬ戦略を見つけます。例えば、報奨と無報酬トライアルからの非対称学習、適応的な地平線依存ランダム探索、離散状態切替などです。
- 参考スコア(独自算出の注目度): 5.657991642023959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical models of learning assume incremental estimation of
continuously-varying decision variables like expected rewards. However, this
class of models fails to capture more idiosyncratic, discrete heuristics and
strategies that people and animals appear to exhibit. Despite recent advances
in strategy discovery using tools like recurrent networks that generalize the
classic models, the resulting strategies are often onerous to interpret, making
connections to cognition difficult to establish. We use Bayesian program
induction to discover strategies implemented by programs, letting the
simplicity of strategies trade off against their effectiveness. Focusing on
bandit tasks, we find strategies that are difficult or unexpected with
classical incremental learning, like asymmetric learning from rewarded and
unrewarded trials, adaptive horizon-dependent random exploration, and discrete
state switching.
- Abstract(参考訳): 典型的な学習モデルは、期待される報酬のような連続的に変化する決定変数の漸進的な推定を仮定する。
しかし、この種のモデルは、人間や動物が示すような、より慣用的な、離散的なヒューリスティックや戦略を捉えることができない。
古典的モデルを一般化するリカレントネットワークのようなツールを用いた戦略発見の最近の進歩にもかかわらず、結果として得られる戦略はしばしば解釈し難いものであり、認識への接続を確立するのが困難である。
ベイズプログラムのインダクションをプログラムによって実装された戦略の発見に使用し、戦略の単純さをその効果と引き換えにします。
バンドイットのタスクに焦点をあてると、報酬や不利な試行からの非対称学習、適応的地平面依存ランダム探索、離散状態切替など、古典的な漸進的学習において困難あるいは予期せぬ戦略が見つかる。
関連論文リスト
- Improving Active Learning with a Bayesian Representation of Epistemic Uncertainty [0.0]
アクティブラーニングの一般的な戦略は、特にてんかんの不確実性の減少を目標にすることである。
この組み合わせが、望ましい特性を持つ新しいアクティブな学習戦略にどのように結びつくかを示す。
非自明な設定でこれらの戦略の効率性を示すために、確率的ガウス過程(GP)の概念を導入する。
論文 参考訳(メタデータ) (2024-12-11T09:19:20Z) - Experience-driven discovery of planning strategies [0.9821874476902969]
メタ認知的強化学習によって新たな計画戦略が発見されることを示す。
人間のデータに合わせると、これらのモデルは人間よりも遅い発見率を示し、改善の余地を残している。
論文 参考訳(メタデータ) (2024-12-04T08:20:03Z) - Sustainable Self-evolution Adversarial Training [51.25767996364584]
対戦型防衛モデルのための持続的自己進化支援訓練(SSEAT)フレームワークを提案する。
本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。
また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:41:11Z) - Ensembling Portfolio Strategies for Long-Term Investments: A Distribution-Free Preference Framework for Decision-Making and Algorithms [0.0]
本稿では、長期的富という観点から個別の戦略を上回るために、逐次的ポートフォリオのための複数の戦略をまとめることの問題点について考察する。
我々は,市場条件にかかわらず,戦略を組み合わせるための新たな意思決定枠組みを導入する。
シャープ比の小さなトレードオフがあるにもかかわらず、提案した戦略を支持する結果を示す。
論文 参考訳(メタデータ) (2024-06-05T23:08:57Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Strategy Synthesis in Markov Decision Processes Under Limited Sampling
Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。
本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-03-22T16:58:44Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。