論文の概要: Prior-Agnostic Incentive-Compatible Exploration
- arxiv url: http://arxiv.org/abs/2602.20465v1
- Date: Tue, 24 Feb 2026 01:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.572937
- Title: Prior-Agnostic Incentive-Compatible Exploration
- Title(参考訳): 先行無知のインセンティブに適合する探索
- Authors: Ramya Ramalingam, Osbert Bastani, Aaron Roth,
- Abstract要約: 帯域設定では、長期的な後悔のメトリクスを最適化するには探索が必要である。
エージェントが誠実に予測に従うように、(重み付けされた)後悔の限界を彼ら自身の満足度に置き換えていることが示されます。
我々は,バンディット設定における適応性と重み付けされた後悔を保証するための具体的なアルゴリズムを用いて,抽象的な境界をインスタンス化する。
- 参考スコア(独自算出の注目度): 32.22947381651758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In bandit settings, optimizing long-term regret metrics requires exploration, which corresponds to sometimes taking myopically sub-optimal actions. When a long-lived principal merely recommends actions to be executed by a sequence of different agents (as in an online recommendation platform) this provides an incentive misalignment: exploration is "worth it" for the principal but not for the agents. Prior work studies regret minimization under the constraint of Bayesian Incentive-Compatibility in a static stochastic setting with a fixed and common prior shared amongst the agents and the algorithm designer. We show that (weighted) swap regret bounds on their own suffice to cause agents to faithfully follow forecasts in an approximate Bayes Nash equilibrium, even in dynamic environments in which agents have conflicting prior beliefs and the mechanism designer has no knowledge of any agents beliefs. To obtain these bounds, it is necessary to assume that the agents have some degree of uncertainty not just about the rewards, but about their arrival time -- i.e. their relative position in the sequence of agents served by the algorithm. We instantiate our abstract bounds with concrete algorithms for guaranteeing adaptive and weighted regret in bandit settings.
- Abstract(参考訳): 帯域設定では、長期的後悔のメトリクスを最適化するには探索が必要である。
長寿のプリンシパルが、(オンラインのレコメンデーションプラットフォームのように)異なるエージェントによって実行されるアクションを単に推奨する場合、これはインセンティブのミスアライメントを与える。
先行研究は、エージェントとアルゴリズムデザイナの間で共有される固定的で共通な事前設定の静的確率的設定において、ベイズ的インセンティブ・コンパティビリティの制約の下で最小化を後悔している。
エージェントが事前の信念と矛盾し、機構設計者がエージェントの信念を全く知らない動的な環境においても、エージェントがほぼベイズ・ナッシュ均衡の予測に忠実に従わせるために、(重み付けされた)自身のサフィス上の後悔境界を交換することを示します。
これらの境界を得るためには、エージェントが報酬だけでなく、その到着時間、すなわちアルゴリズムによって提供されるエージェントの順序における相対的な位置についてある程度の不確実性を持っていると仮定する必要がある。
バンディット設定における適応性と重み付けされた後悔を保証するための具体的なアルゴリズムで、抽象的な境界をインスタンス化する。
関連論文リスト
- Replication-proof Bandit Mechanism Design with Bayesian Agents [11.758708370032469]
エージェントが自分の腕を戦略的に登録したり複製したりする際に、複製防止バンディット機構を設計する際の課題について検討する。
我々は,各自の腕の平均報酬の分布のみを把握しているベイズエージェントについて検討する。
論文 参考訳(メタデータ) (2023-12-28T08:36:35Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。
そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [23.34196562182705]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Trustworthy Preference Completion in Social Choice [36.91054060923998]
すべての選択肢に対して線形順序を与えるようにエージェントに頼むのは非現実的であり、これらの部分的なランク付けは選好完了を行う必要がある。
信頼ベースのアンカー-kNNアルゴリズムは、信頼指向のケンダル-トー距離を持つエージェントの最も信頼できる隣人を見つけるために提案される。
最初の$k$信頼に値する隣接エージェントに対する特定の共通投票ルールは、確実性と紛争に基づいて、信頼に値する選好完了を行うために適用することができる。
論文 参考訳(メタデータ) (2020-12-14T03:03:13Z) - Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning [56.23358327635815]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。