Fugu-MT 論文翻訳(概要): Prior-Agnostic Incentive-Compatible Exploration

論文の概要: Prior-Agnostic Incentive-Compatible Exploration

arxiv url: http://arxiv.org/abs/2602.20465v1
Date: Tue, 24 Feb 2026 01:53:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.572937
Title: Prior-Agnostic Incentive-Compatible Exploration
Title（参考訳）: 先行無知のインセンティブに適合する探索
Authors: Ramya Ramalingam, Osbert Bastani, Aaron Roth,
Abstract要約: 帯域設定では、長期的な後悔のメトリクスを最適化するには探索が必要である。エージェントが誠実に予測に従うように、(重み付けされた)後悔の限界を彼ら自身の満足度に置き換えていることが示されます。我々は,バンディット設定における適応性と重み付けされた後悔を保証するための具体的なアルゴリズムを用いて,抽象的な境界をインスタンス化する。
参考スコア（独自算出の注目度）: 32.22947381651758
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In bandit settings, optimizing long-term regret metrics requires exploration, which corresponds to sometimes taking myopically sub-optimal actions. When a long-lived principal merely recommends actions to be executed by a sequence of different agents (as in an online recommendation platform) this provides an incentive misalignment: exploration is "worth it" for the principal but not for the agents. Prior work studies regret minimization under the constraint of Bayesian Incentive-Compatibility in a static stochastic setting with a fixed and common prior shared amongst the agents and the algorithm designer. We show that (weighted) swap regret bounds on their own suffice to cause agents to faithfully follow forecasts in an approximate Bayes Nash equilibrium, even in dynamic environments in which agents have conflicting prior beliefs and the mechanism designer has no knowledge of any agents beliefs. To obtain these bounds, it is necessary to assume that the agents have some degree of uncertainty not just about the rewards, but about their arrival time -- i.e. their relative position in the sequence of agents served by the algorithm. We instantiate our abstract bounds with concrete algorithms for guaranteeing adaptive and weighted regret in bandit settings.
Abstract（参考訳）: 帯域設定では、長期的後悔のメトリクスを最適化するには探索が必要である。長寿のプリンシパルが、(オンラインのレコメンデーションプラットフォームのように)異なるエージェントによって実行されるアクションを単に推奨する場合、これはインセンティブのミスアライメントを与える。先行研究は、エージェントとアルゴリズムデザイナの間で共有される固定的で共通な事前設定の静的確率的設定において、ベイズ的インセンティブ・コンパティビリティの制約の下で最小化を後悔している。エージェントが事前の信念と矛盾し、機構設計者がエージェントの信念を全く知らない動的な環境においても、エージェントがほぼベイズ・ナッシュ均衡の予測に忠実に従わせるために、(重み付けされた)自身のサフィス上の後悔境界を交換することを示します。これらの境界を得るためには、エージェントが報酬だけでなく、その到着時間、すなわちアルゴリズムによって提供されるエージェントの順序における相対的な位置についてある程度の不確実性を持っていると仮定する必要がある。バンディット設定における適応性と重み付けされた後悔を保証するための具体的なアルゴリズムで、抽象的な境界をインスタンス化する。

関連論文リスト

Steering No-Regret Agents in MFGs under Model Uncertainty [19.845081182511713]
本研究では,密度非依存遷移を伴う平均フィールドゲームにおけるステアリング報酬の設計について検討する。我々は,エージェントの行動と所望の行動との累積的ギャップについて,サブ線形後悔の保証を確立する。本研究は, 不確実な大人口システムにおいて, エージェントの操舵行動に有効な枠組みを提案する。
論文参考訳（メタデータ） (2025-03-12T12:02:02Z)
Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文参考訳（メタデータ） (2024-02-23T06:27:12Z)
Replication-proof Bandit Mechanism Design with Bayesian Agents [11.758708370032469]
エージェントが自分の腕を戦略的に登録したり複製したりする際に、複製防止バンディット機構を設計する際の課題について検討する。我々は,各自の腕の平均報酬の分布のみを把握しているベイズエージェントについて検討する。
論文参考訳（メタデータ） (2023-12-28T08:36:35Z)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文参考訳（メタデータ） (2023-12-13T06:54:49Z)
Byzantine-Resilient Decentralized Multi-Armed Bandits [23.34196562182705]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文参考訳（メタデータ） (2023-10-11T09:09:50Z)
Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文参考訳（メタデータ） (2023-08-13T08:12:01Z)
Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文参考訳（メタデータ） (2023-02-15T01:57:57Z)
Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文参考訳（メタデータ） (2022-06-23T16:36:13Z)
Robust Allocations with Diversity Constraints [65.3799850959513]
エージェント値の積を最大化するナッシュ福祉規則は,多様性の制約が導入されたとき,一意にロバストな位置にあることを示す。また, ナッシュ・ウェルズによる保証は, 広く研究されているアロケーション・ルールのクラスにおいて, ほぼ最適であることを示す。
論文参考訳（メタデータ） (2021-09-30T11:09:31Z)
Trustworthy Preference Completion in Social Choice [36.91054060923998]
すべての選択肢に対して線形順序を与えるようにエージェントに頼むのは非現実的であり、これらの部分的なランク付けは選好完了を行う必要がある。信頼ベースのアンカー-kNNアルゴリズムは、信頼指向のケンダル-トー距離を持つエージェントの最も信頼できる隣人を見つけるために提案される。最初の$k$信頼に値する隣接エージェントに対する特定の共通投票ルールは、確実性と紛争に基づいて、信頼に値する選好完了を行うために適用することができる。
論文参考訳（メタデータ） (2020-12-14T03:03:13Z)
Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文参考訳（メタデータ） (2020-08-10T08:30:52Z)
Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning [56.23358327635815]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文参考訳（メタデータ） (2020-06-22T16:06:25Z)
VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文参考訳（メタデータ） (2020-04-19T18:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。