論文の概要: Distributed No-Regret Learning for Multi-Stage Systems with End-to-End Bandit Feedback
- arxiv url: http://arxiv.org/abs/2404.04509v1
- Date: Sat, 6 Apr 2024 05:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:58:47.860439
- Title: Distributed No-Regret Learning for Multi-Stage Systems with End-to-End Bandit Feedback
- Title(参考訳): エンド・ツー・エンド帯域フィードバックを持つマルチステージシステムの分散非線形学習
- Authors: I-Hong Hou,
- Abstract要約: 本稿では,エンド・ツー・エンドの帯域フィードバックを用いたマルチステージシステムについて検討する。
各ジョブは、結果を生成する前に、異なるエージェントによって管理される複数のステージを通過する必要があります。
本研究の目的は,敵対的環境におけるサブ線形後悔を実現するために,分散オンライン学習アルゴリズムを開発することである。
- 参考スコア(独自算出の注目度): 7.8539454948826375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies multi-stage systems with end-to-end bandit feedback. In such systems, each job needs to go through multiple stages, each managed by a different agent, before generating an outcome. Each agent can only control its own action and learn the final outcome of the job. It has neither knowledge nor control on actions taken by agents in the next stage. The goal of this paper is to develop distributed online learning algorithms that achieve sublinear regret in adversarial environments. The setting of this paper significantly expands the traditional multi-armed bandit problem, which considers only one agent and one stage. In addition to the exploration-exploitation dilemma in the traditional multi-armed bandit problem, we show that the consideration of multiple stages introduces a third component, education, where an agent needs to choose its actions to facilitate the learning of agents in the next stage. To solve this newly introduced exploration-exploitation-education trilemma, we propose a simple distributed online learning algorithm, $\epsilon-$EXP3. We theoretically prove that the $\epsilon-$EXP3 algorithm is a no-regret policy that achieves sublinear regret. Simulation results show that the $\epsilon-$EXP3 algorithm significantly outperforms existing no-regret online learning algorithms for the traditional multi-armed bandit problem.
- Abstract(参考訳): 本稿では,エンド・ツー・エンドの帯域フィードバックを用いたマルチステージシステムについて検討する。
このようなシステムでは、各ジョブは複数のステージを通過して、それぞれ異なるエージェントによって管理され、結果を生成する必要があります。
各エージェントは自身のアクションを制御し、仕事の最終結果のみを学習する。
次段階のエージェントによる行動に関する知識もコントロールも持っていない。
本研究の目的は,敵対的環境におけるサブ線形後悔を実現するために,分散オンライン学習アルゴリズムを開発することである。
本稿では,エージェント1つとステージ1つしか考慮しない従来のマルチアームバンディット問題を大幅に拡張する。
従来のマルチアームバンディット問題における探索・探索ジレンマに加え、多段階の考察は第3の要素である教育を導入し、エージェントは次の段階におけるエージェントの学習を促進するためにその行動を選択する必要があることを示す。
新たに導入された探索-探索-教育のトリレンマを解決するために,簡単な分散オンライン学習アルゴリズムである$\epsilon-$EXP3を提案する。
理論的には、$\epsilon-$EXP3アルゴリズムは、サブ線形後悔を実現するための非回帰ポリシーであることを証明している。
シミュレーションの結果,$\epsilon-$EXP3アルゴリズムは,従来のマルチアームバンディット問題に対して,既存のオンライン学習アルゴリズムを著しく上回ることがわかった。
関連論文リスト
- Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Multi-Agent Bandit Learning through Heterogeneous Action Erasure Channels [21.860440468189044]
Multi-Armed Bandit (MAB) システムはマルチエージェント分散環境におけるアプリケーションの増加を目撃している。
このような設定では、アクションを実行するエージェントと、意思決定を行う一次学習者とのコミュニケーションは、学習プロセスを妨げる可能性がある。
本研究では,学習者が異種行動消去チャネルをまたいで分散エージェントと並列に対話できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-21T19:21:19Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z) - Optimally Deceiving a Learning Leader in Stackelberg Games [123.14187606686006]
MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-11T16:18:21Z) - Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems [3.9599054392856488]
マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
論文 参考訳(メタデータ) (2020-01-27T23:37:41Z) - Algorithms in Multi-Agent Systems: A Holistic Perspective from
Reinforcement Learning and Game Theory [2.5147566619221515]
近年では深い強化学習が顕著な成果を上げている。
最近の研究は、シングルエージェントのシナリオを越えて学習を検討し、マルチエージェントのシナリオを検討しています。
従来のゲーム理論アルゴリズムは、現代的なアルゴリズムと組み合わせた明るいアプリケーションの約束を示し、計算能力を高める。
論文 参考訳(メタデータ) (2020-01-17T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。