論文の概要: Bounded Incentives in Manipulating the Probabilistic Serial Rule
- arxiv url: http://arxiv.org/abs/2001.10640v1
- Date: Tue, 28 Jan 2020 23:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:50:13.098197
- Title: Bounded Incentives in Manipulating the Probabilistic Serial Rule
- Title(参考訳): 確率的シリアルルールの操作における境界インセンティブ
- Authors: Zihe Wang and Zhide Wei and Jie Zhang
- Abstract要約: 確率的シリアルはインセンティブ互換ではない。
戦略行動による実質的な実用性の向上は、自己関心のエージェントがメカニズムを操作するきっかけとなる。
このメカニズムのインセンティブ比が$frac32$であることを示す。
- 参考スコア(独自算出の注目度): 8.309903898123526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Probabilistic Serial mechanism is well-known for its desirable fairness
and efficiency properties. It is one of the most prominent protocols for the
random assignment problem. However, Probabilistic Serial is not
incentive-compatible, thereby these desirable properties only hold for the
agents' declared preferences, rather than their genuine preferences. A
substantial utility gain through strategic behaviors would trigger
self-interested agents to manipulate the mechanism and would subvert the very
foundation of adopting the mechanism in practice. In this paper, we
characterize the extent to which an individual agent can increase its utility
by strategic manipulation. We show that the incentive ratio of the mechanism is
$\frac{3}{2}$. That is, no agent can misreport its preferences such that its
utility becomes more than 1.5 times of what it is when reports truthfully. This
ratio is a worst-case guarantee by allowing an agent to have complete
information about other agents' reports and to figure out the best response
strategy even if it is computationally intractable in general. To complement
this worst-case study, we further evaluate an agent's utility gain on average
by experiments. The experiments show that an agent' incentive in manipulating
the rule is very limited. These results shed some light on the robustness of
Probabilistic Serial against strategic manipulation, which is one step further
than knowing that it is not incentive-compatible.
- Abstract(参考訳): 確率的シリアル機構はその望ましい公正性と効率性でよく知られている。
これはランダム割当問題に対する最も顕著なプロトコルの1つである。
しかし、確率的直列はインセンティブ互換ではないため、これらの望ましい性質はエージェントの宣言された好みに対してのみ保持される。
戦略行動による実質的な実用性の向上は、自己関心のエージェントがメカニズムを操作するきっかけとなり、実際にメカニズムを採用するという基礎を覆すことになる。
本稿では,個々のエージェントが戦略的操作によってその有用性を向上できる程度を特徴付ける。
機構のインセンティブ比が$\frac{3}{2}$であることを示す。
すなわち、その実用性が真に報告する場合の1.5倍以上になるように、その好みを誤って報告することはできない。
この比率は、エージェントが他のエージェントのレポートに関する完全な情報を持ち、計算上一般に難解であっても最良の応答戦略を見出すことによって、最悪の場合の保証である。
この最悪の研究を補完するために, 実験により, エージェントの有効利用率を更に評価した。
実験は、エージェントがルールを操作する動機は非常に限られていることを示している。
これらの結果は、戦略的な操作に対する確率的連続の堅牢性に光を当てた。
関連論文リスト
- Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Decision-Making Among Bounded Rational Agents [5.24482648010213]
本稿では,情報理論の観点からの有界合理性の概念をゲーム理論の枠組みに導入する。
これにより、ロボットは他のエージェントの準最適動作を推論し、計算上の制約の下で行動することができる。
その結果,ロボットが他のエージェントの理性行動の異なるレベルを推論し,その計算制約の下で合理的な戦略を計算できることが実証された。
論文 参考訳(メタデータ) (2022-10-17T00:29:24Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Cursed yet Satisfied Agents [15.104201344012344]
勝者の高い入札は、勝者が売り物の価値を過大評価し、結果として負の効用が生じることを意味する。
呪われても真の信号を入札するようにエージェントにインセンティブを与えるメカニズムを提案します。
論文 参考訳(メタデータ) (2021-04-02T01:15:53Z) - Learning Strategies in Decentralized Matching Markets under Uncertain
Preferences [91.3755431537592]
エージェントの選好が不明な場合,共有資源の不足の設定における意思決定の問題について検討する。
我々のアプローチは、再生されたカーネルヒルベルト空間における好みの表現に基づいている。
エージェントの期待した利益を最大化する最適な戦略を導出する。
論文 参考訳(メタデータ) (2020-10-29T03:08:22Z) - ASCII: ASsisted Classification with Ignorance Interchange [17.413989127493622]
エージェントが他のエージェントの助けを借りてその分類性能を向上させるためのASCIIという手法を提案する。
主なアイデアは、エージェント間の衝突サンプルごとに0と1の間の無知値を反復的に交換することである。
この方法は自然にプライバシーを意識し、伝達経済と分散学習のシナリオに適している。
論文 参考訳(メタデータ) (2020-10-21T03:57:36Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。