論文の概要: Program-Based Strategy Induction for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.16668v1
- Date: Mon, 26 Feb 2024 15:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:23:55.806964
- Title: Program-Based Strategy Induction for Reinforcement Learning
- Title(参考訳): 強化学習のためのプログラムベース戦略誘導
- Authors: Carlos G. Correa and Thomas L. Griffiths and Nathaniel D. Daw
- Abstract要約: ベイジアンプログラム誘導を用いて、プログラムによって実行された戦略を発見することで、戦略の単純さがそれらの効果と引き換えにできる。
古典的な漸進的な学習では難しい、あるいは予期せぬ戦略を見つけます。例えば、報奨と無報酬トライアルからの非対称学習、適応的な地平線依存ランダム探索、離散状態切替などです。
- 参考スコア(独自算出の注目度): 5.657991642023959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical models of learning assume incremental estimation of
continuously-varying decision variables like expected rewards. However, this
class of models fails to capture more idiosyncratic, discrete heuristics and
strategies that people and animals appear to exhibit. Despite recent advances
in strategy discovery using tools like recurrent networks that generalize the
classic models, the resulting strategies are often onerous to interpret, making
connections to cognition difficult to establish. We use Bayesian program
induction to discover strategies implemented by programs, letting the
simplicity of strategies trade off against their effectiveness. Focusing on
bandit tasks, we find strategies that are difficult or unexpected with
classical incremental learning, like asymmetric learning from rewarded and
unrewarded trials, adaptive horizon-dependent random exploration, and discrete
state switching.
- Abstract(参考訳): 典型的な学習モデルは、期待される報酬のような連続的に変化する決定変数の漸進的な推定を仮定する。
しかし、この種のモデルは、人間や動物が示すような、より慣用的な、離散的なヒューリスティックや戦略を捉えることができない。
古典的モデルを一般化するリカレントネットワークのようなツールを用いた戦略発見の最近の進歩にもかかわらず、結果として得られる戦略はしばしば解釈し難いものであり、認識への接続を確立するのが困難である。
ベイズプログラムのインダクションをプログラムによって実装された戦略の発見に使用し、戦略の単純さをその効果と引き換えにします。
バンドイットのタスクに焦点をあてると、報酬や不利な試行からの非対称学習、適応的地平面依存ランダム探索、離散状態切替など、古典的な漸進的学習において困難あるいは予期せぬ戦略が見つかる。
関連論文リスト
- Ensembling Portfolio Strategies for Long-Term Investments: A Distribution-Free Preference Framework for Decision-Making and Algorithms [0.0]
本稿では、長期的富という観点から個別の戦略を上回るために、逐次的ポートフォリオのための複数の戦略をまとめることの問題点について考察する。
我々は,市場条件にかかわらず,戦略を組み合わせるための新たな意思決定枠組みを導入する。
シャープ比の小さなトレードオフがあるにもかかわらず、提案した戦略を支持する結果を示す。
論文 参考訳(メタデータ) (2024-06-05T23:08:57Z) - Unleashing the Potential of Regularization Strategies in Learning with
Noisy Labels [65.92994348757743]
クロスエントロピー損失を用いた単純なベースラインと、広く使われている正規化戦略を組み合わせることで、最先端の手法より優れていることを示す。
この結果から,正規化戦略の組み合わせは,ノイズラベルを用いた学習の課題に対処する上で,複雑なアルゴリズムよりも効果的であることが示唆された。
論文 参考訳(メタデータ) (2023-07-11T05:58:20Z) - Transfer and Active Learning for Dissonance Detection: Addressing the
Rare-Class Challenge [7.61140479230184]
本稿では,不協和検出の希少クラス問題に対する移動学習および能動的学習ソリューションの提案と検討を行う。
我々は、ソーシャルメディアから認知不協和の言語サンプルを収集する、特定のまれなクラス問題に対する実験を行う。
提案手法は,アノテーションをガイドし,最終的にモデルの精度を向上させるためのシンプルで効果的な戦略である。
論文 参考訳(メタデータ) (2023-05-03T23:29:05Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Strategy Synthesis in Markov Decision Processes Under Limited Sampling
Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。
本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-03-22T16:58:44Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - Strategic Classification Made Practical [8.778578967271866]
本稿では,戦略分類のための学習フレームワークを提案する。
当社のアプローチは,ユーザの戦略的対応を通じて差別化することで達成される,"戦略的"経験的リスクを直接的に最小化する。
様々な学習環境におけるアプローチの有効性について実験を行った。
論文 参考訳(メタデータ) (2021-03-02T16:03:26Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。