論文の概要: (Almost) Free Incentivized Exploration from Decentralized Learning
Agents
- arxiv url: http://arxiv.org/abs/2110.14628v1
- Date: Wed, 27 Oct 2021 17:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 13:58:08.769904
- Title: (Almost) Free Incentivized Exploration from Decentralized Learning
Agents
- Title(参考訳): ほとんど)分散型学習エージェントからの無償インセンティブ付き探索
- Authors: Chengshuai Shi, Haifeng Xu, Wei Xiong, Cong Shen
- Abstract要約: マルチアーム・バンディット(MAB)におけるインセンティブ付き探索は、近年の関心と多くの進歩を目撃している。
複数の長期戦略エージェントによるインセンティブ付き探索について検討する。
この研究の重要な観察は、戦略エージェントの本質的な学習利益の要求が「自由な引き金」を提供することで、プリンシパルの探究を損なう代わりに)必要となることである。
- 参考スコア(独自算出の注目度): 27.012893220438702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incentivized exploration in multi-armed bandits (MAB) has witnessed
increasing interests and many progresses in recent years, where a principal
offers bonuses to agents to do explorations on her behalf. However, almost all
existing studies are confined to temporary myopic agents. In this work, we
break this barrier and study incentivized exploration with multiple and
long-term strategic agents, who have more complicated behaviors that often
appear in real-world applications. An important observation of this work is
that strategic agents' intrinsic needs of learning benefit (instead of harming)
the principal's explorations by providing "free pulls". Moreover, it turns out
that increasing the population of agents significantly lowers the principal's
burden of incentivizing. The key and somewhat surprising insight revealed from
our results is that when there are sufficiently many learning agents involved,
the exploration process of the principal can be (almost) free. Our main results
are built upon three novel components which may be of independent interest: (1)
a simple yet provably effective incentive-provision strategy; (2) a carefully
crafted best arm identification algorithm for rewards aggregated under unequal
confidences; (3) a high-probability finite-time lower bound of UCB algorithms.
Experimental results are provided to complement the theoretical analysis.
- Abstract(参考訳): マルチアーム・バンディット(MAB)におけるインセンティブ付き探検は、近年の関心と多くの進歩を目の当たりにしている。
しかし、既存の研究のほとんどは一時的な筋覚剤に限られている。
本研究では、この障壁を突破し、現実のアプリケーションによく現れるより複雑な振る舞いを持つ複数の長期戦略エージェントによる調査をインセンティブとした。
この研究に関する重要な観察は、戦略エージェントが「無償の引き金」を提供することで、校長の探究を損なうことなく)学習の利益を本質的に要求することである。
さらに, エージェントの人口増加により, インセンティブの負担が著しく軽減されることが判明した。
私たちの結果から明らかになった重要な驚くべき洞察は、十分に多くの学習エージェントが関与している場合、プリンシパルの探索プロセスは(ほぼ)自由であるということです。
本研究の主な成果は,(1)単純かつ実証可能なインセンティブ・プロビジョン戦略,(2)不平等な信頼の下で集約された報酬に対する最良腕識別アルゴリズム,(3)高確率有限時間 UCB アルゴリズムの低限界化である。
理論的解析を補完する実験結果が提供される。
関連論文リスト
- Exploration and Persuasion [58.87314871998078]
我々は、自己関心のあるエージェントが利用したいときの探索にインセンティブを与える方法を示す。
不確実性の下で決定を下す利己的なエージェントの集団を考える。
彼らは新しい情報を取得し、良い決定を下すためにこの情報を「発見」する。
これは、探査が費用がかかるためであるが、将来多くのエージェントにその利点が広がるためである。
論文 参考訳(メタデータ) (2024-10-22T15:13:13Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Curiosity-Driven Multi-Agent Exploration with Mixed Objectives [7.247148291603988]
単エージェント強化学習におけるスパース報酬問題を軽減するために、本質的な報酬がますます利用されてきた。
好奇心駆動探索(英: Curiosity-driven exploration)は、エージェントの好奇心モジュールの予測誤差としてこの新規性を定量化する、単純で効率的なアプローチである。
しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。
論文 参考訳(メタデータ) (2022-10-29T02:45:38Z) - Strategically Efficient Exploration in Competitive Multi-agent
Reinforcement Learning [25.041622707261897]
本研究は,非協調的マルチエージェント環境における楽観的な探索の役割を理解することを目的とする。
ゼロサムゲームにおいて、楽観的な探索は、学習者が戦略的なプレーとは無関係な状態空間のサンプリング部分を無駄にしてしまうことを示します。
この問題に対処するため、マルコフゲームにおいて戦略的に効率的な探索という形式的概念を導入し、これを有限マルコフゲームのための戦略的に効率的な2つの学習アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2021-07-30T15:22:59Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。