論文の概要: Strategic Linear Contextual Bandits
- arxiv url: http://arxiv.org/abs/2406.00551v2
- Date: Thu, 26 Sep 2024 13:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 01:56:09.715914
- Title: Strategic Linear Contextual Bandits
- Title(参考訳): 戦略的線形文脈帯域
- Authors: Thomas Kleine Buening, Aadirupa Saha, Christos Dimitrakakis, Haifeng Xu,
- Abstract要約: 本研究では,線形文脈帯域問題の戦略的変異について検討する。そこでは,アームが学習者にプライベートに観測されたコンテキストを戦略的に誤報告することができる。
我々は, エージェントに対して, 後悔を最小限に抑えつつ, 文脈を真実に報告するよう動機づけるオプティスティックグリムトリガー機構(OptGTM)を提案する。
- 参考スコア(独自算出の注目度): 46.199717711979076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the phenomenon of strategic agents gaming a recommender system to maximize the number of times they are recommended to users, we study a strategic variant of the linear contextual bandit problem, where the arms can strategically misreport privately observed contexts to the learner. We treat the algorithm design problem as one of mechanism design under uncertainty and propose the Optimistic Grim Trigger Mechanism (OptGTM) that incentivizes the agents (i.e., arms) to report their contexts truthfully while simultaneously minimizing regret. We also show that failing to account for the strategic nature of the agents results in linear regret. However, a trade-off between mechanism design and regret minimization appears to be unavoidable. More broadly, this work aims to provide insight into the intersection of online learning and mechanism design.
- Abstract(参考訳): 利用者に推奨する回数を最大化するために, 戦略エージェントが推薦システムをゲーミングする現象に触発され, 線形文脈的帯域問題の戦略的変異について検討した。
我々は,アルゴリズム設計問題を不確実性下でのメカニズム設計の1つとして扱うとともに,エージェント(腕)に刺激を与えるオプティスティックグリムトリガー機構(OptGTM)を提案する。
また, エージェントの戦略的性質を考慮しないと, 線形後悔が生じることも示唆した。
しかし、機構設計と後悔の最小化のトレードオフは避けられないように見える。
より広範に、この研究はオンライン学習とメカニズム設計の共通点に関する洞察を提供することを目的としている。
関連論文リスト
- Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - Risk-reducing design and operations toolkit: 90 strategies for managing
risk and uncertainty in decision problems [65.268245109828]
本稿では,このような戦略のカタログを開発し,それらのためのフレームワークを開発する。
高い不確実性のために難解であるように見える決定問題に対して、効率的な応答を提供する、と論じている。
次に、多目的最適化を用いた決定理論にそれらを組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - A Policy Iteration Approach for Flock Motion Control [5.419608513284392]
全体的な制御プロセスは、群れの粘着性と局在性を監視しながらエージェントを誘導する。
ここでは、独立したコマンドジェネレータに従うためにエージェント群を誘導するために、オンラインモデルフリーのポリシーイテレーションメカニズムが開発されている。
政策反復機構のシミュレーション結果から,計算労力の少ない高速学習と収束挙動が明らかになった。
論文 参考訳(メタデータ) (2023-03-17T15:04:57Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Distributed Task Management in Fog Computing: A Socially Concave Bandit
Game [7.708904950194129]
Fogコンピューティングは、ネットワークエッジでのタスクオフロード機能を活用して、効率を改善し、アプリケーション要求に対する迅速な応答を可能にする。
分散タスク割り当て問題を,帯域幅フィードバックによるソーシャルコンケーブゲームとして定式化する。
我々は2つのオンライン意思決定戦略を策定する。
論文 参考訳(メタデータ) (2022-03-28T08:26:14Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Learning Generative Deception Strategies in Combinatorial Masking Games [27.2744631811653]
詐欺の1つの方法は、システムがどのように構成されているかに関する情報を隠蔽したり、マスキングしたりすることである。
本稿では,攻撃者側がマスクする属性のサブセットを選択するのに対して,攻撃者は攻撃を行うエクスプロイトを選択することで応答する,結果として生じるディフェンダー・アタックラー相互作用のゲーム理論モデルを提案する。
両プレイヤーの戦略をニューラルネットワークとして表現することにより,そのようなゲームを概ね解くための,新しい高度にスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-23T20:42:44Z) - Collaborative Multidisciplinary Design Optimization with Neural Networks [1.2691047660244335]
協調最適化の場合、二項分類の興味深い問題を解くことにより、より高速で信頼性の高い収束が得られることを示す。
本稿では,非対称な損失関数,リプシッツ連続性を保証する構造,基本距離関数の性質を尊重する正規化を含むニューラルネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2021-06-11T00:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。