論文の概要: Learning Not to Spoof
- arxiv url: http://arxiv.org/abs/2306.06087v1
- Date: Fri, 9 Jun 2023 17:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:01:21.278312
- Title: Learning Not to Spoof
- Title(参考訳): 振り返らないことを学ぶ
- Authors: David Byrd
- Abstract要約: 私は、知的株式取引業者が利益を最大化しつつ、市場を汚すことを不注意に学ぶ一連の実験を考えます。
私は、手書きスプーフィングトレーダーを単純な利益最大化RLエージェントに置き換え、スプーフィングを最適な戦略として独立して発見することを観察します。
本稿では,認識者を規範的ガイドとして組み込む方法を紹介し,エージェントの認識した報酬を形作り,選択した行動を変更する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As intelligent trading agents based on reinforcement learning (RL) gain
prevalence, it becomes more important to ensure that RL agents obey laws,
regulations, and human behavioral expectations. There is substantial literature
concerning the aversion of obvious catastrophes like crashing a helicopter or
bankrupting a trading account, but little around the avoidance of subtle
non-normative behavior for which there are examples, but no programmable
definition. Such behavior may violate legal or regulatory, rather than physical
or monetary, constraints.
In this article, I consider a series of experiments in which an intelligent
stock trading agent maximizes profit but may also inadvertently learn to spoof
the market in which it participates. I first inject a hand-coded spoofing agent
to a multi-agent market simulation and learn to recognize spoofing activity
sequences. Then I replace the hand-coded spoofing trader with a simple
profit-maximizing RL agent and observe that it independently discovers spoofing
as the optimal strategy. Finally, I introduce a method to incorporate the
recognizer as normative guide, shaping the agent's perceived rewards and
altering its selected actions. The agent remains profitable while avoiding
spoofing behaviors that would result in even higher profit. After presenting
the empirical results, I conclude with some recommendations. The method should
generalize to the reduction of any unwanted behavior for which a recognizer can
be learned.
- Abstract(参考訳): 強化学習(RL)に基づくインテリジェントトレーディングエージェントが普及するにつれて、RLエージェントが法、規制、人間の行動期待に従うことを保証することがより重要になる。
ヘリコプターを墜落させたり、取引口座を破産させたりといった明らかな大惨事の回避に関する多くの文献があるが、例があるがプログラマブルな定義はない微妙な非ノルミティブな行動を避けることはほとんどない。
このような行為は、物理的または金銭的制約よりも、法的または規制的制約に違反する可能性がある。
本稿では、知的株式取引業者が利益を最大化するが、それが参加する市場を不注意に偽装することを学ぶ一連の実験について考察する。
まず,マルチエージェント市場シミュレーションにハンドコードスプーフィングエージェントを注入し,スプーフィング活動のシーケンスを認識することを学ぶ。
次に、手書きスプーフィングトレーダーを単純な利益最大化RLエージェントに置き換え、スプーフィングを最適戦略として独立して発見することを観察する。
最後に、認識者を規範的ガイドとして組み込む方法を紹介し、エージェントの認識された報酬を形作り、選択した行動を変更する。
エージェントは利益を上げつつも、さらに高い利益をもたらすスプーフィング行動を避けている。
実験結果を提示した後、いくつかの推奨事項で締めくくります。
この方法は、認識者が学習できるあらゆる望ましくない行動の低減に一般化すべきである。
関連論文リスト
- Safe Exploitative Play with Untrusted Type Beliefs [21.177698937011183]
本研究では,複数のエージェントからなるシステムにおいて,一つのエージェントを制御するという考え方について検討する。
この種の信念は、しばしば過去の行動から学び、誤りである可能性が高い。
リスクと機会のトレードオフを定義し、最適のペイオフに対して得られるペイオフを比較します。
論文 参考訳(メタデータ) (2024-11-12T09:49:16Z) - Agent-Aware Training for Agent-Agnostic Action Advising in Deep
Reinforcement Learning [37.70609910232786]
深層強化学習(DRL)における非効率サンプリングの課題を軽減するため、専門家教員からの補助的指導を活用するための行動アドバイス
従来のエージェント特異的な行動アドバイス法はエージェント自体の不完全性によって妨げられ、エージェント非依存的なアプローチでは学習エージェントへの適応性が制限される。
本稿では,エージェント・アウェア・trAining yet Agent-Agnostic Action Advising (A7) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:09:43Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Multi-Issue Bargaining With Deep Reinforcement Learning [0.0]
本稿では,バーゲティングゲームにおける深層強化学習の活用について検討する。
入札と受け入れ戦略のために2つのアクター・クリティカル・ネットワークが訓練された。
ニューラルエージェントは時間ベースのエージェントを活用することを学び、決定優先値の明確な遷移を達成する。
彼らはまた、譲歩、割引要因、行動に基づく戦略の異なる組み合わせに対して適応的な行動を示す。
論文 参考訳(メタデータ) (2020-02-18T18:33:46Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z) - Combating False Negatives in Adversarial Imitation Learning [67.99941805086154]
敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。
訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。
本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
論文 参考訳(メタデータ) (2020-02-02T14:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。