論文の概要: The Combinatorial Multi-Bandit Problem and its Application to Energy
Management
- arxiv url: http://arxiv.org/abs/2010.16269v3
- Date: Wed, 4 Nov 2020 11:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 17:12:08.310518
- Title: The Combinatorial Multi-Bandit Problem and its Application to Energy
Management
- Title(参考訳): 組合せ多バンド問題とエネルギー管理への応用
- Authors: Tobias Jacobs, Mischa Schmidt, S\'ebastien Nicolas, Anett Sch\"ulke
- Abstract要約: 本稿では,エネルギーシステム管理の応用を動機とした,コンビニアルマルチバンド問題について考察する。
エネルギー管理アプリケーションのために,マルチアームバンディットの探索原理と数理プログラミングを組み合わせたアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.236663830879273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a Combinatorial Multi-Bandit Problem motivated by applications in
energy systems management. Given multiple probabilistic multi-arm bandits with
unknown outcome distributions, the task is to optimize the value of a
combinatorial objective function mapping the vector of individual bandit
outcomes to a single scalar reward. Unlike in single-bandit problems with
multi-dimensional action space, the outcomes of the individual bandits are
observable in our setting and the objective function is known. Guided by the
hypothesis that individual observability enables better trade-offs between
exploration and exploitation, we generalize the lower regret bound for single
bandits, showing that indeed for multiple bandits it admits parallelized
exploration. For our energy management application we propose a range of
algorithms that combine exploration principles for multi-arm bandits with
mathematical programming. In an experimental study we demonstrate the
effectiveness of our approach to learn action assignments for 150 bandits, each
having 24 actions, within a horizon of 365 episodes.
- Abstract(参考訳): エネルギーシステム管理における応用に動機づけられた組合せ型マルチバンド問題について検討する。
結果分布が不明な複数の確率的マルチアームバンディットを与えられた場合、各バンディット結果のベクトルを1つのスカラー報酬にマッピングする組合せ目的関数の値を最適化する。
多次元作用空間を持つ単一帯域問題とは異なり、個々の帯域幅の結果は我々の設定で観測可能であり、目的関数が知られている。
個々のオブザーバビリティが探索と搾取の間のより良いトレードオフを可能にするという仮説に導かれ、単一バンドイットに対するより低い後悔を一般化し、複数のバンドイットに対して並列的な探索を認めることを示した。
エネルギー管理アプリケーションのために,マルチアームバンディットの探索原理と数学的プログラミングを組み合わせたアルゴリズムを提案する。
実験では,365エピソードの地平線内で,それぞれ24の行動を有する150のバンディットに対して,行動割当を学習する手法の有効性を実証した。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Multi-task Representation Learning for Pure Exploration in Bilinear
Bandits [13.773838574776338]
バイリニア・バンディットにおける純粋探索問題に対するマルチタスク表現学習について検討した。
バイリニア・バンディットでは、アクションは2つの異なる実体タイプから一対の腕の形を取る。
論文 参考訳(メタデータ) (2023-11-01T06:30:45Z) - Energy Regularized RNNs for Solving Non-Stationary Bandit Problems [97.72614340294547]
我々は、ニューラルネットワークが特定の行動を支持するのに自信過剰になるのを防ぐエネルギー用語を提案する。
提案手法は,ロッティングバンドのサブプロブレムを解く方法と同じくらい有効であることを示す。
論文 参考訳(メタデータ) (2023-03-12T03:32:43Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Bandit approach to conflict-free multi-agent Q-learning in view of
photonic implementation [0.0]
従来の研究では、光子の量子干渉を使って競合する多重武装バンディットの問題を解決してきた。
本研究は,より汎用的なマルチエージェント強化学習への従来のアプローチを拡張した。
成功したフォトニック強化学習方式は、学習の質に寄与するフォトニックシステムと適切なアルゴリズムの両方を必要とする。
論文 参考訳(メタデータ) (2022-12-20T00:27:29Z) - Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models [7.458639397686894]
効果的に探索する方法は、多腕バンディットにおける中心的な問題である。
メタデータに基づくマルチタスクバンディット問題を導入する。
ベイズ階層モデルのレンズを通してタスク関係を捉えることを提案する。
論文 参考訳(メタデータ) (2021-08-13T22:45:05Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。