論文の概要: COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents
- arxiv url: http://arxiv.org/abs/2505.23720v1
- Date: Thu, 29 May 2025 17:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.056433
- Title: COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents
- Title(参考訳): COBRA:真正戦略エージェントのコンテキスト帯域アルゴリズム
- Authors: Arun Verma, Indrajit Saha, Makoto Yokoo, Bryan Kian Hsiang Low,
- Abstract要約: 既存の文脈的盗賊の研究は、エージェントが真に彼らの腕を報告していると仮定している。
金融インセンティブを使わずに戦略行動を阻害する戦略エージェントを含む文脈的盗賊問題に対するアルゴリズムCOBRAを提案する。
- 参考スコア(独自算出の注目度): 41.57721032039409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers a contextual bandit problem involving multiple agents, where a learner sequentially observes the contexts and the agent's reported arms, and then selects the arm that maximizes the system's overall reward. Existing work in contextual bandits assumes that agents truthfully report their arms, which is unrealistic in many real-life applications. For instance, consider an online platform with multiple sellers; some sellers may misrepresent product quality to gain an advantage, such as having the platform preferentially recommend their products to online users. To address this challenge, we propose an algorithm, COBRA, for contextual bandit problems involving strategic agents that disincentivize their strategic behavior without using any monetary incentives, while having incentive compatibility and a sub-linear regret guarantee. Our experimental results also validate the different performance aspects of our proposed algorithm.
- Abstract(参考訳): 本稿では,学習者がコンテキストと報告されたエージェントの腕を逐次観察し,システム全体の報酬を最大化するアームを選択する,複数のエージェントを含むコンテキスト的盗聴問題について考察する。
既存の文脈的盗賊の研究は、エージェントが真に彼らの腕を報告していると仮定している。
例えば、複数の売り手を持つオンラインプラットフォームを考えると、一部の売り手は商品の品質を誤って表現し、利益を得る可能性がある。
この課題に対処するため,我々は,金銭的インセンティブを使わずに戦略行動の非インセンティブ化を図り,インセンティブの整合性とサブリニアな後悔を保証する戦略エージェントを含む文脈的帯域幅問題に対するCOBRAアルゴリズムを提案する。
また,提案アルゴリズムの性能特性についても検証した。
関連論文リスト
- Keep Everyone Happy: Online Fair Division of Numerous Items with Few Copies [41.57721032039409]
本稿では,学習者が不可分な項目を逐次観察する複数のエージェントを含む,オンラインフェア分割問題の新たな変種について考察する。
既存のアルゴリズムは、十分な数のコピーを持つ少数のアイテムを仮定し、全てのアイテムとエージェントのペアに対して優れたユーティリティー推定を可能にする。
本稿では,オンラインフェア分割を文脈的帯域幅問題としてモデル化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-23T05:25:58Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。
そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Robust Multi-Agent Multi-Armed Bandits [26.26185074977412]
最近の研究によると、$Kの武器を持った盗賊の独立した事例に直面しているエージェントが、後悔を減らすために協力できることが示されている。
我々は、悪質なエージェントの振る舞いを仮定することなく、$m$が$K$よりも小さいと仮定すると、このアルゴリズムに対するコラボレーションは本当に後悔を減らせることを示した。
論文 参考訳(メタデータ) (2020-07-07T22:27:30Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。