論文の概要: Regret Minimization with Performative Feedback
- arxiv url: http://arxiv.org/abs/2202.00628v1
- Date: Tue, 1 Feb 2022 18:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:50:38.451418
- Title: Regret Minimization with Performative Feedback
- Title(参考訳): Performative Feedback を用いたレグレト最小化
- Authors: Meena Jagadeesan, Tijana Zrnic, Celestine Mendler-D\"unner
- Abstract要約: 低後悔を維持しつつ, 演奏率下での近似モデル探索の問題について検討した。
私たちの主な貢献は、分散シフトの複雑さによってのみスケールする、後悔の束縛です。
- 参考スコア(独自算出の注目度): 19.864741129536256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In performative prediction, the deployment of a predictive model triggers a
shift in the data distribution. As these shifts are typically unknown ahead of
time, the learner needs to deploy a model to get feedback about the
distribution it induces. We study the problem of finding near-optimal models
under performativity while maintaining low regret. On the surface, this problem
might seem equivalent to a bandit problem. However, it exhibits a fundamentally
richer feedback structure that we refer to as performative feedback: after
every deployment, the learner receives samples from the shifted distribution
rather than only bandit feedback about the reward. Our main contribution is
regret bounds that scale only with the complexity of the distribution shifts
and not that of the reward function. The key algorithmic idea is careful
exploration of the distribution shifts that informs a novel construction of
confidence bounds on the risk of unexplored models. The construction only
relies on smoothness of the shifts and does not assume convexity. More broadly,
our work establishes a conceptual approach for leveraging tools from the
bandits literature for the purpose of regret minimization with performative
feedback.
- Abstract(参考訳): 実行予測では、予測モデルのデプロイがデータ分散のシフトをトリガーする。
これらのシフトは通常、事前に未知であるため、学習者は、それが引き起こす分布に関するフィードバックを得るためにモデルをデプロイする必要がある。
再現性を維持しつつ, ほぼ最適モデルを求める問題について検討した。
表面的には、この問題はバンディット問題と等価に思えるかもしれない。
しかし、基本的にはよりリッチなフィードバック構造を示しており、我々はパフォーマンス的なフィードバックと呼ぶ: デプロイのたびに、学習者は報酬に関する盗聴フィードバックだけでなく、シフトした分布からサンプルを受け取る。
我々の主な貢献は、分配シフトの複雑さにのみスケールする後悔境界であり、報酬関数のそれではない。
鍵となるアルゴリズムのアイデアは、未探索モデルのリスクに基づいた新しい信頼境界の構築を知らせる分布シフトを慎重に探索することである。
構造はシフトの滑らかさにのみ依存し、凸性を仮定しない。
より広範に、我々の研究は、演奏的フィードバックによる後悔の最小化を目的として、盗賊文献からツールを活用するための概念的アプローチを確立している。
関連論文リスト
- Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? [60.59376487151964]
特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Performative Prediction with Neural Networks [22.66295224352892]
パフォーマンス予測は、予測するデータに影響を与えるモデルを学習するためのフレームワークである。
繰り返しリスク最小化法を用いて、性能的に安定な分類器を見つけるための標準収束結果は、データの分布がモデルのパラメータに連続であることを仮定する。
この研究では、データ分布はモデルの予測に関してリプシッツ連続であると仮定する。
論文 参考訳(メタデータ) (2023-04-14T01:12:48Z) - Optimizing the Performative Risk under Weak Convexity Assumptions [0.0]
性能予測において、予測モデルは将来のデータを生成する分布に影響を与える。
これまでの研究では、損失に関する一般的な条件とモデルパラメータから分布へのマッピングが特定されており、凸性はパフォーマンスリスクを意味する。
本稿では,反復最適化法における性能最小化リスク問題の回避性を犠牲にすることなく,これらの仮定を緩和する。
論文 参考訳(メタデータ) (2022-09-02T01:07:09Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Dense Out-of-Distribution Detection by Robust Learning on Synthetic
Negative Data [1.7474352892977458]
道路走行シーンとリモートセンシング画像における分布外異常の検出方法を示す。
我々は,カバレッジ指向学習の目的と異なる解像度でサンプルを生成する能力により,共同で訓練された正規化フローを活用する。
結果として得られたモデルは、道路走行シーンとリモートセンシング画像におけるアウト・オブ・ディストリビューション検出のためのベンチマークに、新たな技術状況を設定した。
論文 参考訳(メタデータ) (2021-12-23T20:35:10Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Effects of Model Misspecification on Bayesian Bandits: Case Studies in
UX Optimization [8.704145252476705]
我々は、新しい定式化を、保存されていない共同創設者とオプションの停止を伴う、安静な睡眠バンディットとして提示する。
ケーススタディは、一般的な不特定が最適以下の報酬につながることを示している。
また、レスレスバンディットにおける結合を利用した最初のモデルを示し、有限の後悔と高速で一貫した停止が可能であることを示した。
論文 参考訳(メタデータ) (2020-10-07T14:34:28Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。