論文の概要: Regret Analysis of Repeated Delegated Choice
- arxiv url: http://arxiv.org/abs/2310.04884v1
- Date: Tue, 10 Oct 2023 01:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 14:48:05.959529
- Title: Regret Analysis of Repeated Delegated Choice
- Title(参考訳): 繰り返しdelegated Choiceのレグレト解析
- Authors: MohammadTaghi Hajiaghayi, Mohammad Mahdavi, Keivan Rezaei, Suho Shin
- Abstract要約: 本稿では,Kleinberg と Kleinberg のオンライン学習版である EC'18 について検討した。
問題設定の2つの次元について検討し、エージェントがミオプティカルに振る舞うか、ラウンドをまたいで戦略化するか、解が決定論的か実用的かを検討する。
- 参考スコア(独自算出の注目度): 8.384985977301174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a study on a repeated delegated choice problem, which is the first
to consider an online learning variant of Kleinberg and Kleinberg, EC'18. In
this model, a principal interacts repeatedly with an agent who possesses an
exogenous set of solutions to search for efficient ones. Each solution can
yield varying utility for both the principal and the agent, and the agent may
propose a solution to maximize its own utility in a selfish manner. To mitigate
this behavior, the principal announces an eligible set which screens out a
certain set of solutions. The principal, however, does not have any information
on the distribution of solutions in advance. Therefore, the principal
dynamically announces various eligible sets to efficiently learn the
distribution. The principal's objective is to minimize cumulative regret
compared to the optimal eligible set in hindsight. We explore two dimensions of
the problem setup, whether the agent behaves myopically or strategizes across
the rounds, and whether the solutions yield deterministic or stochastic
utility. Our analysis mainly characterizes some regimes under which the
principal can recover the sublinear regret, thereby shedding light on the rise
and fall of the repeated delegation procedure in various regimes.
- Abstract(参考訳): 本稿では,クラインバーグとクラインバーグのオンライン学習型であるec'18を最初に検討した,反復委譲選択問題について述べる。
このモデルでは、プリンシパルは効率の良いものを探すために外因性の解の集合を持つエージェントと繰り返し相互作用する。
それぞれの解はプリンシパルとエージェントの両方に様々な効用を与えることができ、エージェントは利己的な方法で自身の効用を最大化するための解を提案できる。
この動作を緩和するために、プリンシパルは、特定のソリューションセットをスクリーンアウトする適格なセットを発表する。
しかし、プリンシパルは、あらかじめ解の分布に関する情報を持っていない。
したがって、プリンシパルは、分布を効率的に学習する様々な許容集合を動的に発表する。
プリンシパルの目的は、後ろ向きの最適許容集合と比較して累積後悔を最小限にすることである。
問題設定の2つの次元について検討し、エージェントがミオプティカルに振る舞うか、ラウンドをまたいで戦略化するか、解が決定論的あるいは確率的効用をもたらすかを検討する。
本分析では,主に,主教がサブリニア的後悔を回復できる体制を特徴付け,各体制における反復委任手続の興亡に光を当てる。
関連論文リスト
- Active Learning for Fair and Stable Online Allocations [6.23798328186465]
我々は、オンラインリソース割り当てプロセスの各エポックにおいて、エージェントの特定のサブセットからのフィードバックを検討する。
提案アルゴリズムは,様々な測度に対して,時系列のサブ線形な後悔境界を提供する。
我々は,効率的な意思決定には広範なフィードバックは必要とせず,様々な問題クラスに対して効率的な結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-06-20T23:23:23Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Learning Fair Policies for Multi-stage Selection Problems from
Observational Data [4.282745020665833]
我々は、観測データから多段階選択問題に対する公正なポリシーを学習する問題を考察する。
この問題は、企業の雇用、ローン承認、または、選択された結果のみが観察されるような保釈決定など、いくつかの高い評価の領域で発生する。
本稿では,人口格差や平等機会など,様々な公平性制約で拡張可能な多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T16:33:15Z) - Causal Strategic Learning with Competitive Selection [10.237954203296187]
複数の意思決定者の下で因果戦略学習におけるエージェント選択の問題について検討する。
最適な選択規則は、最適なエージェントを選択することと、エージェントの改善を最大化するためのインセンティブを提供することの間のトレードオフであることを示す。
我々は、真の因果パラメータを回復するために、すべての意思決定者がまとめて採用しなければならない協調プロトコルを提供する。
論文 参考訳(メタデータ) (2023-08-30T18:43:11Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。
提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-06-17T02:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。