論文の概要: No-Regret and Incentive-Compatible Online Learning
- arxiv url: http://arxiv.org/abs/2002.08837v2
- Date: Tue, 30 Jun 2020 18:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 07:26:19.114689
- Title: No-Regret and Incentive-Compatible Online Learning
- Title(参考訳): no-regretとインセンティブ互換のオンライン学習
- Authors: Rupert Freeman, David M. Pennock, Chara Podimata, and Jennifer Wortman
Vaughan
- Abstract要約: 本研究では,学習アルゴリズムの予測に対する影響を最大化するために,専門家が戦略的に行動するオンライン学習環境について検討する。
私たちは、学習アルゴリズムを、後見の最高の固定専門家に対して、不適切なものにしたいと考えています。
完全な情報設定と部分的な情報設定の両方について、専門家にとって後悔とインセンティブの相性のないアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 29.267666165169324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online learning settings in which experts act strategically to
maximize their influence on the learning algorithm's predictions by potentially
misreporting their beliefs about a sequence of binary events. Our goal is
twofold. First, we want the learning algorithm to be no-regret with respect to
the best fixed expert in hindsight. Second, we want incentive compatibility, a
guarantee that each expert's best strategy is to report his true beliefs about
the realization of each event. To achieve this goal, we build on the literature
on wagering mechanisms, a type of multi-agent scoring rule. We provide
algorithms that achieve no regret and incentive compatibility for myopic
experts for both the full and partial information settings. In experiments on
datasets from FiveThirtyEight, our algorithms have regret comparable to classic
no-regret algorithms, which are not incentive-compatible. Finally, we identify
an incentive-compatible algorithm for forward-looking strategic agents that
exhibits diminishing regret in practice.
- Abstract(参考訳): 本研究では,学習アルゴリズムの予測に対する影響を最大化するために,専門家が戦略的に行動するオンライン学習環境について検討する。
私たちの目標は2倍です。
第一に、学習アルゴリズムが、後見の最高の固定エキスパートに対して無抵抗であるようにしたい。
第二に、インセンティブの互換性、すなわち、各専門家の最善の戦略は、各イベントの実現に関する彼の真の信念を報告することである。
この目標を達成するために,マルチエージェントスコアリングルールの一種である賃金メカニズムに関する文献を構築した。
我々は、全情報設定と部分情報設定の両方において、ミオピックの専門家に対して、後悔やインセンティブの互換性をもたないアルゴリズムを提供する。
FiveThirtyEightのデータセットの実験では、私たちのアルゴリズムは、インセンティブに適合しない古典的な非回帰アルゴリズムに匹敵するものを後悔している。
最後に,後悔を減少させる戦略エージェントに対するインセンティブ互換アルゴリズムを特定する。
関連論文リスト
- Incentive-compatible Bandits: Importance Weighting No More [14.344759978208957]
本稿では,包括的フィードバックによるインセンティブ適合型オンライン学習の課題について検討する。
この研究では、最初のインセンティブに適合するアルゴリズムを提案し、$O(sqrtKT)$ regret bounds を楽しむ。
論文 参考訳(メタデータ) (2024-05-10T13:57:13Z) - On the price of exact truthfulness in incentive-compatible online learning with bandit feedback: A regret lower bound for WSU-UX [8.861995276194435]
古典的な予測ゲームと専門的なアドバイスと二進的な結果の1つの見方では、それぞれの専門家は反対に選択された信念を維持している。
本稿では、この問題の戦略的なバリエーションとして、自己中心的な専門家(レコメンデーション・シーキング)が紹介されている。
損失列の明示的な構成により、アルゴリズムは最悪の場合$Omega(T2/3)$lowboundに苦しむことを示した。
論文 参考訳(メタデータ) (2024-04-08T02:41:32Z) - Contextual Bandits and Imitation Learning via Preference-Based Active
Queries [17.73844193143454]
本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
論文 参考訳(メタデータ) (2023-07-24T16:36:04Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - No-Regret Online Prediction with Strategic Experts [16.54912614895861]
オンラインバイナリ予測の一般化をエキスパートアドバイスフレームワークを用いて研究し、各ラウンドで、学習者は、Kドルの専門家のプールからmgeq 1ドルの専門家を選ぶことができる。
我々は、専門家が戦略的に行動し、彼らの信念を誤報することでアルゴリズムの予測への影響を最大化することを目的とした設定に焦点を当てる。
目標は,次の2つの要件を満たすアルゴリズムを設計することです。 1) $textitIncentive-compatible$: 専門家に信念を真実に報告させるインセンティブ,2) $textitNo-regret$: Achieve。
論文 参考訳(メタデータ) (2023-05-24T16:43:21Z) - Streaming Algorithms for Learning with Experts: Deterministic Versus
Robust [62.98860182111096]
エキスパート問題を伴うオンライン学習では、アルゴリズムは、T$day(または時間)ごとに結果を予測する必要がある。
目標は最小限のコストで予測を行うことだ。
最良専門家が$M$の誤りを犯したとき、後悔する$R$を達成するような決定論的アルゴリズムに対して、$widetildeOmegaleft(fracnMRTright)$の空間下界を示す。
論文 参考訳(メタデータ) (2023-03-03T04:39:53Z) - Strategizing against Learners in Bayesian Games [74.46970859427907]
プレイヤーの1人である学習者が無学習の学習戦略を採用する2人プレイヤゲームについて検討した。
一般のベイズゲームでは,学習者と学習者の双方の報酬の支払いが,そのタイプに依存する可能性がある。
論文 参考訳(メタデータ) (2022-05-17T18:10:25Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Of Moments and Matching: Trade-offs and Treatments in Imitation Learning [26.121994149869767]
我々は、モーメントマッチングのレンズを通して、過去の模倣学習アルゴリズムの大規模なファミリの統一ビューを提供する。
学習者と専門家の行動の相違を考慮することで、政策パフォーマンスの限界を導出することができる。
AdVILとAdRILという2つの新しいアルゴリズムテンプレートを、強力な保証、シンプルな実装、競争力のある実証的パフォーマンスで導出します。
論文 参考訳(メタデータ) (2021-03-04T18:57:11Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。