論文の概要: Reinforcement Learning in Economics and Finance
- arxiv url: http://arxiv.org/abs/2003.10014v1
- Date: Sun, 22 Mar 2020 22:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:58:44.980769
- Title: Reinforcement Learning in Economics and Finance
- Title(参考訳): 経済・金融における強化学習
- Authors: Arthur Charpentier and Romuald Elie and Carl Remlinger
- Abstract要約: 強化学習アルゴリズムは、エージェントがシーケンシャルな意思決定プロセスにおいて最適な行動ポリシーを学習する方法を記述する。
本稿では,強化学習技術の現状と,経済学,ゲーム理論,運用研究,ファイナンスにおける応用について述べる。
- 参考スコア(独自算出の注目度): 1.7875811547963403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms describe how an agent can learn an optimal
action policy in a sequential decision process, through repeated experience. In
a given environment, the agent policy provides him some running and terminal
rewards. As in online learning, the agent learns sequentially. As in
multi-armed bandit problems, when an agent picks an action, he can not infer
ex-post the rewards induced by other action choices. In reinforcement learning,
his actions have consequences: they influence not only rewards, but also future
states of the world. The goal of reinforcement learning is to find an optimal
policy -- a mapping from the states of the world to the set of actions, in
order to maximize cumulative reward, which is a long term strategy. Exploring
might be sub-optimal on a short-term horizon but could lead to optimal
long-term ones. Many problems of optimal control, popular in economics for more
than forty years, can be expressed in the reinforcement learning framework, and
recent advances in computational science, provided in particular by deep
learning algorithms, can be used by economists in order to solve complex
behavioral problems. In this article, we propose a state-of-the-art of
reinforcement learning techniques, and present applications in economics, game
theory, operation research and finance.
- Abstract(参考訳): 強化学習アルゴリズムは、エージェントが反復的な経験を通じて、シーケンシャルな意思決定プロセスにおいて最適な行動ポリシーを学習する方法を記述する。
与えられた環境では、エージェントポリシーは彼にいくつかのランニングとターミナル報酬を提供する。
オンライン学習と同様に、エージェントは順次学習する。
マルチアームバンディット問題のように、エージェントがアクションを選択すると、他のアクション選択によって引き起こされる報酬を推測することはできない。
強化学習においては、彼の行動は、報酬だけでなく、世界の将来の状態にも影響を及ぼす。
強化学習の目標は、長期戦略である累積報酬を最大化するために、世界の状態から行動の集合へのマッピングである最適な政策を見つけることである。
探索は短期的には最適だが、長期的な探索には最適かもしれない。
40年以上にわたって経済学で流行した最適制御の多くの問題は強化学習フレームワークで表現することができ、特に深層学習アルゴリズムによって提供される計算科学の最近の進歩は、複雑な行動問題を解くために経済学者が用いることができる。
本稿では,強化学習技術の最先端の提案と,経済学,ゲーム理論,運用研究,金融学の応用について述べる。
関連論文リスト
- An agent design with goal reaching guarantees for enhancement of learning [40.76517286989928]
強化学習はマルコフ決定過程における累積報酬の最大化の問題に関係している。
我々は、かなり柔軟で、批判者を構成する限り、事実上あらゆるエージェントを増強するために使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-28T12:27:36Z) - Amortized nonmyopic active search via deep imitation learning [16.037812098340343]
アクティブ検索は、希少で価値のあるクラスのメンバを集めることを目標とする、特別なアクティブな学習環境を形式化する。
本稿では,ニューラルネットワークをトレーニングして検索学習を行うことにより,このポリシーの償却について検討する。
我々のネットワークは、合成データに基づいて訓練され、非神秘的な決定をもたらす有益な探索戦略を学習する。
論文 参考訳(メタデータ) (2024-05-23T20:10:29Z) - Parametrically Retargetable Decision-Makers Tend To Seek Power [91.93765604105025]
完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。
我々は、最適からランダムまで、AI意思決定のモデルから、学習と環境との対話によって得られる選択まで、さまざまなモデルを検討します。
定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。
論文 参考訳(メタデータ) (2022-06-27T17:39:23Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Useful Policy Invariant Shaping from Arbitrary Advice [24.59807772487328]
RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。
最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
論文 参考訳(メタデータ) (2020-11-02T20:29:09Z) - Optimally Deceiving a Learning Leader in Stackelberg Games [123.14187606686006]
MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-11T16:18:21Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。