論文の概要: Energy Regularized RNNs for Solving Non-Stationary Bandit Problems
- arxiv url: http://arxiv.org/abs/2303.06552v1
- Date: Sun, 12 Mar 2023 03:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:25:35.214085
- Title: Energy Regularized RNNs for Solving Non-Stationary Bandit Problems
- Title(参考訳): 非定常帯域問題に対するエネルギー正規化RNN
- Authors: Michael Rotman, Lior Wolf
- Abstract要約: 我々は、ニューラルネットワークが特定の行動を支持するのに自信過剰になるのを防ぐエネルギー用語を提案する。
提案手法は,ロッティングバンドのサブプロブレムを解く方法と同じくらい有効であることを示す。
- 参考スコア(独自算出の注目度): 97.72614340294547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a Multi-Armed Bandit problem in which the rewards are
non-stationary and are dependent on past actions and potentially on past
contexts. At the heart of our method, we employ a recurrent neural network,
which models these sequences. In order to balance between exploration and
exploitation, we present an energy minimization term that prevents the neural
network from becoming too confident in support of a certain action. This term
provably limits the gap between the maximal and minimal probabilities assigned
by the network. In a diverse set of experiments, we demonstrate that our method
is at least as effective as methods suggested to solve the sub-problem of
Rotting Bandits, and can solve intuitive extensions of various benchmark
problems. We share our implementation at
https://github.com/rotmanmi/Energy-Regularized-RNN.
- Abstract(参考訳): 我々は,報酬が非定常であり,過去の行動や過去の状況に依存する可能性があるマルチアームのバンディット問題を考える。
提案手法の核心には,これらのシーケンスをモデル化するリカレントニューラルネットワークを用いる。
探索と利用のバランスをとるために,ニューラルネットワークが特定の行動を支援する上で自信過剰になることを防ぐエネルギー最小化用語を提案する。
この用語は、ネットワークによって割り当てられた最大確率と最小確率の間のギャップを確実に制限する。
種々の実験において,本手法はロッティング帯域のサブプロブレムを解く方法と同じくらい有効であり,様々なベンチマーク問題の直感的な拡張を解くことができることを示す。
実装はhttps://github.com/rotmanmi/Energy-Regularized-RNNで公開しています。
関連論文リスト
- Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Convergence and Recovery Guarantees of Unsupervised Neural Networks for Inverse Problems [2.6695224599322214]
我々は、逆問題を解決するために訓練された教師なしフィードフォワード多層ニューラルネットワークのクラスに対して、決定論的収束と回復保証を提供する。
また、スムーズなアクティベーション関数を持つ2層ディープ逆プリエントネットワークが保証の恩恵を受けるようなオーバーパラメトリゼーション境界を導出する。
論文 参考訳(メタデータ) (2023-09-21T14:48:02Z) - Tighter Abstract Queries in Neural Network Verification [0.0]
CEGARETTEは,システムとプロパティを同時に抽象化し,洗練する新しい検証機構である。
私たちの結果は有望であり、複数のベンチマークよりもパフォーマンスが大幅に向上したことを証明しています。
論文 参考訳(メタデータ) (2022-10-23T22:18:35Z) - Zonotope Domains for Lagrangian Neural Network Verification [102.13346781220383]
我々は、ディープニューラルネットワークを多くの2層ニューラルネットワークの検証に分解する。
我々の手法は線形プログラミングとラグランジアンに基づく検証技術の両方により改善された境界を与える。
論文 参考訳(メタデータ) (2022-10-14T19:31:39Z) - Adversarially Robust Learning for Security-Constrained Optimal Power
Flow [55.816266355623085]
我々は、N-kセキュリティ制約付き最適電力流(SCOPF)の課題に取り組む。
N-k SCOPFは電力網の運用における中核的な問題である。
N-k SCOPF を極小最適化問題とみなす。
論文 参考訳(メタデータ) (2021-11-12T22:08:10Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z) - Differentiable Causal Discovery from Interventional Data [141.41931444927184]
本稿では、介入データを活用可能なニューラルネットワークに基づく理論的基盤化手法を提案する。
提案手法は,様々な環境下での美術品の状態と良好に比較できることを示す。
論文 参考訳(メタデータ) (2020-07-03T15:19:17Z) - Targeted free energy estimation via learned mappings [66.20146549150475]
自由エネルギー摂動 (FEP) は60年以上前にズワンツィヒによって自由エネルギー差を推定する方法として提案された。
FEPは、分布間の十分な重複の必要性という厳しい制限に悩まされている。
目標自由エネルギー摂動(Targeted Free Energy Perturbation)と呼ばれるこの問題を緩和するための1つの戦略は、オーバーラップを増やすために構成空間の高次元マッピングを使用する。
論文 参考訳(メタデータ) (2020-02-12T11:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。