論文の概要: Regret Minimization with Performative Feedback
- arxiv url: http://arxiv.org/abs/2202.00628v1
- Date: Tue, 1 Feb 2022 18:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:50:38.451418
- Title: Regret Minimization with Performative Feedback
- Title(参考訳): Performative Feedback を用いたレグレト最小化
- Authors: Meena Jagadeesan, Tijana Zrnic, Celestine Mendler-D\"unner
- Abstract要約: 低後悔を維持しつつ, 演奏率下での近似モデル探索の問題について検討した。
私たちの主な貢献は、分散シフトの複雑さによってのみスケールする、後悔の束縛です。
- 参考スコア(独自算出の注目度): 19.864741129536256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In performative prediction, the deployment of a predictive model triggers a
shift in the data distribution. As these shifts are typically unknown ahead of
time, the learner needs to deploy a model to get feedback about the
distribution it induces. We study the problem of finding near-optimal models
under performativity while maintaining low regret. On the surface, this problem
might seem equivalent to a bandit problem. However, it exhibits a fundamentally
richer feedback structure that we refer to as performative feedback: after
every deployment, the learner receives samples from the shifted distribution
rather than only bandit feedback about the reward. Our main contribution is
regret bounds that scale only with the complexity of the distribution shifts
and not that of the reward function. The key algorithmic idea is careful
exploration of the distribution shifts that informs a novel construction of
confidence bounds on the risk of unexplored models. The construction only
relies on smoothness of the shifts and does not assume convexity. More broadly,
our work establishes a conceptual approach for leveraging tools from the
bandits literature for the purpose of regret minimization with performative
feedback.
- Abstract(参考訳): 実行予測では、予測モデルのデプロイがデータ分散のシフトをトリガーする。
これらのシフトは通常、事前に未知であるため、学習者は、それが引き起こす分布に関するフィードバックを得るためにモデルをデプロイする必要がある。
再現性を維持しつつ, ほぼ最適モデルを求める問題について検討した。
表面的には、この問題はバンディット問題と等価に思えるかもしれない。
しかし、基本的にはよりリッチなフィードバック構造を示しており、我々はパフォーマンス的なフィードバックと呼ぶ: デプロイのたびに、学習者は報酬に関する盗聴フィードバックだけでなく、シフトした分布からサンプルを受け取る。
我々の主な貢献は、分配シフトの複雑さにのみスケールする後悔境界であり、報酬関数のそれではない。
鍵となるアルゴリズムのアイデアは、未探索モデルのリスクに基づいた新しい信頼境界の構築を知らせる分布シフトを慎重に探索することである。
構造はシフトの滑らかさにのみ依存し、凸性を仮定しない。
より広範に、我々の研究は、演奏的フィードバックによる後悔の最小化を目的として、盗賊文献からツールを活用するための概念的アプローチを確立している。
関連論文リスト
- Grokking Explained: A Statistical Phenomenon [4.113597666007784]
グローキング(英: Grokking)または遅延一般化(英: delay generalization)は、モデルのトレーニングセットの損失が収束した後のみ、テストセットの損失が急激に減少する興味深い学習現象である。
本稿では,グルーキングを定式化し,その出現の鍵となる要素がトレーニングデータとテストデータ間の分散シフトであることを示す。
論文 参考訳(メタデータ) (2025-02-03T19:28:11Z) - Not Eliminate but Aggregate: Post-Hoc Control over Mixture-of-Experts to Address Shortcut Shifts in Natural Language Understanding [5.4480125359160265]
本稿では,各専門家が比較的異なる潜伏特徴を捉えていると仮定して,実験結果の混合予測を悲観的に集約する手法を提案する。
実験結果から,専門家に対するポストホック制御は,ショートカットにおける分布シフトに対するモデルのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T20:00:04Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Reducing Bias in Pre-trained Models by Tuning while Penalizing Change [8.862970622361747]
大量のデータに基づいてトレーニングされた深層モデルには、トレーニング期間中に存在する暗黙のバイアスが組み込まれていることが多い。
新しいデータは、しばしば高価で、自律運転や医療意思決定のような分野では入手が困難である。
本稿では,事前学習モデルを用いて,事前検出したバイアスを軽減するために重みを適応する変化ペナライゼーションに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T16:12:38Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Dense Out-of-Distribution Detection by Robust Learning on Synthetic
Negative Data [1.7474352892977458]
道路走行シーンとリモートセンシング画像における分布外異常の検出方法を示す。
我々は,カバレッジ指向学習の目的と異なる解像度でサンプルを生成する能力により,共同で訓練された正規化フローを活用する。
結果として得られたモデルは、道路走行シーンとリモートセンシング画像におけるアウト・オブ・ディストリビューション検出のためのベンチマークに、新たな技術状況を設定した。
論文 参考訳(メタデータ) (2021-12-23T20:35:10Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Effects of Model Misspecification on Bayesian Bandits: Case Studies in
UX Optimization [8.704145252476705]
我々は、新しい定式化を、保存されていない共同創設者とオプションの停止を伴う、安静な睡眠バンディットとして提示する。
ケーススタディは、一般的な不特定が最適以下の報酬につながることを示している。
また、レスレスバンディットにおける結合を利用した最初のモデルを示し、有限の後悔と高速で一貫した停止が可能であることを示した。
論文 参考訳(メタデータ) (2020-10-07T14:34:28Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。