論文の概要: Dynamic Memory for Interpretable Sequential Optimisation
- arxiv url: http://arxiv.org/abs/2206.13960v1
- Date: Tue, 28 Jun 2022 12:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 12:08:38.870878
- Title: Dynamic Memory for Interpretable Sequential Optimisation
- Title(参考訳): 逐次最適化のための動的メモリ
- Authors: Srivas Chennu, Andrew Maher, Jamie Martin, Subash Prabanantham
- Abstract要約: 大規模展開に適した非定常性を扱うためのソリューションを提案する。
動的メモリの新たな形態を取り入れた適応型ベイズ学習エージェントを開発した。
自動アズ・ア・サービス(Automatic-as-a-service)の大規模展開のアーキテクチャについて説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world applications of reinforcement learning for recommendation and
experimentation faces a practical challenge: the relative reward of different
bandit arms can evolve over the lifetime of the learning agent. To deal with
these non-stationary cases, the agent must forget some historical knowledge, as
it may no longer be relevant to minimise regret. We present a solution to
handling non-stationarity that is suitable for deployment at scale, to provide
business operators with automated adaptive optimisation. Our solution aims to
provide interpretable learning that can be trusted by humans, whilst responding
to non-stationarity to minimise regret. To this end, we develop an adaptive
Bayesian learning agent that employs a novel form of dynamic memory. It enables
interpretability through statistical hypothesis testing, by targeting a set
point of statistical power when comparing rewards and adjusting its memory
dynamically to achieve this power. By design, the agent is agnostic to
different kinds of non-stationarity. Using numerical simulations, we compare
its performance against an existing proposal and show that, under multiple
non-stationary scenarios, our agent correctly adapts to real changes in the
true rewards. In all bandit solutions, there is an explicit trade-off between
learning and achieving maximal performance. Our solution sits on a different
point on this trade-off when compared to another similarly robust approach: we
prioritise interpretability, which relies on more learning, at the cost of some
regret. We describe the architecture of a large-scale deployment of automatic
optimisation-as-a-service where our agent achieves interpretability whilst
adapting to changing circumstances.
- Abstract(参考訳): 強化学習のレコメンデーションと実験への実世界の応用は、実践的な課題に直面している:異なるバンディットアームの相対的な報酬は、学習エージェントの生涯にわたって進化することができる。
これらの非定常事件に対処するために、エージェントは過去の知識を忘れなければならない。
本稿では、大規模展開に適した非定常性を扱うためのソリューションを提案し、ビジネスオペレーターに自動適応最適化を提供する。
私たちのソリューションは、人間に信頼できる解釈可能な学習を提供することを目標としています。
そこで我々は,動的メモリの新たな形態を用いた適応型ベイズ学習エージェントを開発した。
統計的仮説テストを通じて、報酬を比較する際の統計的パワーのセットポイントをターゲットとし、メモリを動的に調整することで、このパワーを達成することができる。
設計上、エージェントは異なる種類の非定常性に依存しない。
数値シミュレーションを用いて,既存の提案と比較し,複数の非定常シナリオにおいて,エージェントが真の報酬の実際の変化に正しく適応することを示す。
すべてのバンディットソリューションでは、学習と最大パフォーマンスの達成の間に明確なトレードオフがある。
私たちのソリューションは、同様の堅牢なアプローチと比較して、このトレードオフの別のポイントに置かれています。
エージェントが変化する状況に適応しながら、解釈可能性を達成できる自動最適化・アズ・ア・サービスの大規模デプロイメントのアーキテクチャについて説明する。
関連論文リスト
- Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。
最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。
モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文 参考訳(メタデータ) (2024-07-16T21:28:03Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Learning Optimal Features via Partial Invariance [18.552839725370383]
不変リスク最小化(IRM)は、複数の環境から堅牢なモデルを学ぶことを目的とした一般的なフレームワークである。
IRMが予測器を過度に抑制できることを示し、これを補うために、$textitpartial invariance$を介して緩和を提案する。
線形設定と、言語と画像データの両方のタスクにおけるディープニューラルネットワークの両方で実施されたいくつかの実験により、結論の検証が可能になった。
論文 参考訳(メタデータ) (2023-01-28T02:48:14Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Generalizing Decision Making for Automated Driving with an Invariant
Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。
本研究では,エゴ車の観点から不変環境表現を提案する。
この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文 参考訳(メタデータ) (2021-02-12T20:37:29Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。