論文の概要: Socially-Optimal Mechanism Design for Incentivized Online Learning
- arxiv url: http://arxiv.org/abs/2112.14338v1
- Date: Wed, 29 Dec 2021 00:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 23:44:19.032885
- Title: Socially-Optimal Mechanism Design for Incentivized Online Learning
- Title(参考訳): インセンティブ付きオンライン学習のための社会的最適メカニズム設計
- Authors: Zhiyuan Wang and Lin Gao and Jianwei Huang
- Abstract要約: マルチアーム・バンディット(英: Multi-arm bandit、MAB)は、不確実な環境でのシーケンシャルな意思決定を研究する古典的なオンライン学習フレームワークである。
これは、スペクトル共有、クラウドセンシング、エッジコンピューティングなど、多くのアプリケーションにおいて事実上重要なシナリオである。
本稿では,このシナリオに対するインセンティブ付きオンライン学習(IOL)フレームワークを確立する。
- 参考スコア(独自算出の注目度): 32.55657244414989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-arm bandit (MAB) is a classic online learning framework that studies
the sequential decision-making in an uncertain environment. The MAB framework,
however, overlooks the scenario where the decision-maker cannot take actions
(e.g., pulling arms) directly. It is a practically important scenario in many
applications such as spectrum sharing, crowdsensing, and edge computing. In
these applications, the decision-maker would incentivize other selfish agents
to carry out desired actions (i.e., pulling arms on the decision-maker's
behalf). This paper establishes the incentivized online learning (IOL)
framework for this scenario. The key challenge to design the IOL framework lies
in the tight coupling of the unknown environment learning and asymmetric
information revelation. To address this, we construct a special Lagrangian
function based on which we propose a socially-optimal mechanism for the IOL
framework. Our mechanism satisfies various desirable properties such as agent
fairness, incentive compatibility, and voluntary participation. It achieves the
same asymptotic performance as the state-of-art benchmark that requires extra
information. Our analysis also unveils the power of crowd in the IOL framework:
a larger agent crowd enables our mechanism to approach more closely the
theoretical upper bound of social performance. Numerical results demonstrate
the advantages of our mechanism in large-scale edge computing.
- Abstract(参考訳): マルチアームバンディット(multi-arm bandit、mab)は、不確定な環境での逐次意思決定を研究する、古典的なオンライン学習フレームワークである。
しかし、MABフレームワークは、意思決定者が直接アクション(例えば、腕を引っ張る)を行うことができないシナリオを見落としている。
これは、スペクトル共有、クラウドセンシング、エッジコンピューティングなど、多くのアプリケーションにおいて事実上重要なシナリオである。
これらの適用において、意思決定者は、他の利己的なエージェントに望ましい行動(すなわち、意思決定者に代わって腕を引く)を行うようインセンティブを与える。
本稿では,このシナリオに対するインセンティブ付きオンライン学習(IOL)フレームワークを確立する。
IOLフレームワークを設計する上で重要な課題は、未知の環境学習と非対称情報公開の密結合にある。
そこで本研究では,IOLフレームワークの社会的最適メカニズムを提案する,特別なラグランジアン関数を構築した。
本機構は, エージェントフェアネス, インセンティブ適合性, 自発的参加など, 様々な望ましい特性を満たす。
余分な情報を必要とする最先端のベンチマークと同じ漸近的なパフォーマンスを実現している。
より大きなエージェントの群衆は、私たちのメカニズムをより密接に社会のパフォーマンスの理論的上限にアプローチできるようにします。
計算結果は,大規模エッジコンピューティングにおける機構の利点を示す。
関連論文リスト
- Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - A Novel Multiagent Flexibility Aggregation Framework [1.7132914341329848]
本稿では,多エージェントアーキテクチャを包含する新たなDERアグリゲーションフレームワークを提案する。
アーキテクチャの重要なコンポーネントのひとつはローカルフレキシビリティ・エスペクタ(LFE)エージェントです。
論文 参考訳(メタデータ) (2023-07-17T11:36:15Z) - ComplAI: Theory of A Unified Framework for Multi-factor Assessment of
Black-Box Supervised Machine Learning Models [6.279863832853343]
ComplAIは、説明可能性、堅牢性、パフォーマンス、公正性、モデル行動を有効にし、観察し、分析し、定量化するユニークなフレームワークである。
教師付き機械学習モデルの評価は、正しい予測を行う能力だけでなく、全体的な責任の観点から行う。
論文 参考訳(メタデータ) (2022-12-30T08:48:19Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - AutonoML: Towards an Integrated Framework for Autonomous Machine
Learning [9.356870107137095]
Reviewは、自動化された自動MLシステムを構成するものに関して、より広範な視点を動機付けようとしている。
その上で、以下の研究領域の開発状況を調査します。
我々は、各トピックによって拡張されたレビューを通して概念的枠組みを開発し、高レベルなメカニズムを自律mlシステムに融合する方法を1つ紹介する。
論文 参考訳(メタデータ) (2020-12-23T11:01:10Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z) - Incentive Mechanism Design for Resource Sharing in Collaborative Edge
Learning [106.51930957941433]
5GとBeyondネットワークでは、人工知能のアプリケーションがますます普及すると予想されている。
これは、現在のクラウド中心のモデルトレーニングアプローチから、エッジラーニングとして知られるエッジコンピューティングベースの協調学習スキームへのパラダイムシフトを必要とする。
論文 参考訳(メタデータ) (2020-05-31T12:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。