論文の概要: On Reinforcement Learning, Effect Handlers, and the State Monad
- arxiv url: http://arxiv.org/abs/2203.15426v1
- Date: Tue, 29 Mar 2022 10:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 00:16:47.030393
- Title: On Reinforcement Learning, Effect Handlers, and the State Monad
- Title(参考訳): 強化学習,エフェクトハンドラー,国家モナドについて
- Authors: Ugo Dal Lago, Francesco Gavazzo and Alexis Ghyselen
- Abstract要約: 本研究では,機能プログラムにおける意思決定抽象化を支援する手段として,エフェクトとハンドラについて検討する。
我々は,これらの操作のハンドラセットとして実装された強化学習アルゴリズムとして,その基盤となるインテリジェンスを表現している。
我々は、タイプとエフェクトハンドラがいかに安全性を確保できるかを示唆することで結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the algebraic effects and handlers as a way to support
decision-making abstractions in functional programs, whereas a user can ask a
learning algorithm to resolve choices without implementing the underlying
selection mechanism, and give a feedback by way of rewards. Differently from
some recently proposed approach to the problem based on the selection monad
[Abadi and Plotkin, LICS 2021], we express the underlying intelligence as a
reinforcement learning algorithm implemented as a set of handlers for some of
these algebraic operations, including those for choices and rewards. We show
how we can in practice use algebraic operations and handlers -- as available in
the programming language EFF -- to clearly separate the learning algorithm from
its environment, thus allowing for a good level of modularity. We then show how
the host language can be taken as a lambda-calculus with handlers, this way
showing what the essential linguistic features are. We conclude by hinting at
how type and effect systems could ensure safety properties, at the same time
pointing at some directions for further work.
- Abstract(参考訳): 関数型プログラムにおける意思決定抽象化を支援する方法として代数的効果とハンドラを検討した。一方,ユーザは学習アルゴリズムに選択機構を実装せずに選択の解決を依頼し,報酬の方法によるフィードバックを与えることができる。
選択モナド(Abadi and Plotkin, LICS 2021)に基づく問題に対する最近提案されたアプローチとは違って、我々は、選択と報酬を含む代数的操作のハンドラセットとして実装された強化学習アルゴリズムとして、基礎となるインテリジェンスを表現する。
私たちは実際に、プログラミング言語effで利用可能な代数演算とハンドラを使用して、学習アルゴリズムをその環境から明確に分離し、適切なレベルのモジュール化を可能にする方法を示します。
次に、ホスト言語をハンドラを備えたラムダ計算として捉える方法を示し、本質的な言語的特徴が何であるかを示す。
我々は、タイプとエフェクトシステムがいかに安全性を確保できるかを示唆するとともに、さらなる作業の方向性を指摘することで結論付けた。
関連論文リスト
- How to Choose a Reinforcement-Learning Algorithm [29.76033485145459]
我々は、強化学習アルゴリズムと行動配信ファミリーを選択するプロセスの合理化を図る。
既存のメソッドとその特性に関する構造化された概要と、どのメソッドを選択するかのガイドラインを提供する。
論文 参考訳(メタデータ) (2024-07-30T15:54:18Z) - Unveiling the Decision-Making Process in Reinforcement Learning with Genetic Programming [4.249842620609683]
不理解性は、現実世界で(深い)強化学習を使用するための選択肢ではない。
我々は、すでに訓練されたエージェントの意思決定プロセスの説明を生成するための遺伝的プログラミングフレームワークを提案する。
私たちは性能に匹敵するが、ハードウェアリソースや計算時間を大幅に削減する必要があることを示しています。
論文 参考訳(メタデータ) (2024-07-20T00:45:03Z) - A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。
動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。
概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Smart Choices and the Selection Monad [0.0]
選択と結果のコストと報酬の観点からシステムを記述することは、アルゴリズム設計者やプログラマが選択をどのように行うべきかを自由にする、という約束を提供する。
意思決定の抽象化をサポートする2つの小さな言語を定義します。
論文 参考訳(メタデータ) (2020-07-17T12:13:16Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z) - Can We Learn Heuristics For Graphical Model Inference Using
Reinforcement Learning? [114.24881214319048]
我々は、強化学習を用いて、高次条件ランダム場(CRF)における推論を解くためのプログラム、すなわち、ポリシーを学習できることを示します。
本手法は,ポテンシャルの形式に制約を加えることなく,推論タスクを効率的に解く。
論文 参考訳(メタデータ) (2020-04-27T19:24:04Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。