論文の概要: Addressing the Long-term Impact of ML Decisions via Policy Regret
- arxiv url: http://arxiv.org/abs/2106.01325v1
- Date: Wed, 2 Jun 2021 17:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:48:54.682247
- Title: Addressing the Long-term Impact of ML Decisions via Policy Regret
- Title(参考訳): 政策後悔によるml決定の長期的影響への取り組み
- Authors: David Lindner and Hoda Heidari and Andreas Krause
- Abstract要約: 意思決定者が腕を引っ張るたびに、各腕からの報酬が進化する状況について検討する。
我々は、許容可能な機会の逐次配分は、成長の可能性を考慮に入れなければならないと論じている。
十分に長い時間的地平線に対して、確実にサブ線形ポリシーを後悔するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 49.92903850297013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning (ML) increasingly informs the allocation of opportunities to
individuals and communities in areas such as lending, education, employment,
and beyond. Such decisions often impact their subjects' future characteristics
and capabilities in an a priori unknown fashion. The decision-maker, therefore,
faces exploration-exploitation dilemmas akin to those in multi-armed bandits.
Following prior work, we model communities as arms. To capture the long-term
effects of ML-based allocation decisions, we study a setting in which the
reward from each arm evolves every time the decision-maker pulls that arm. We
focus on reward functions that are initially increasing in the number of pulls
but may become (and remain) decreasing after a certain point. We argue that an
acceptable sequential allocation of opportunities must take an arm's potential
for growth into account. We capture these considerations through the notion of
policy regret, a much stronger notion than the often-studied external regret,
and present an algorithm with provably sub-linear policy regret for
sufficiently long time horizons. We empirically compare our algorithm with
several baselines and find that it consistently outperforms them, in particular
for long time horizons.
- Abstract(参考訳): 機械学習(ml)は、ローン、教育、雇用などの分野における個人やコミュニティへの機会配分をますます知らしめている。
このような決定は、しばしば被写体の将来の特性や能力に前もって未知の方法で影響する。
したがって、意思決定者は、マルチアームのバンディットのような探索探索のジレンマに直面している。
以前の作業の後、私たちはコミュニティを武器としてモデル化します。
MLに基づくアロケーション決定の長期的効果を捉えるため、意思決定者が腕を引っ張るたびに各腕からの報酬が進化する環境について検討する。
プル数は当初増加するが、ある時点の後に減少する(そして残る)かもしれない報酬機能に焦点を当てています。
我々は、許容できる機会の逐次配置は、armの成長の可能性を考慮に入れなければならないと主張している。
我々は、しばしば議論される外部の後悔よりも強い概念である政策後悔の概念を通じてこれらの考察を捉え、十分長い時間軸に対して確実に下位線形の政策後悔を持つアルゴリズムを提案する。
私たちは経験的にアルゴリズムをいくつかのベースラインと比較し、特に長い時間軸において、一貫してアルゴリズムを上回っています。
関連論文リスト
- Long-Term Fairness in Sequential Multi-Agent Selection with Positive Reinforcement [21.44063458579184]
大学入学や採用のような選抜プロセスでは、少数派からの応募者に対する偏見は肯定的なフィードバックをもたらすと仮定される。
グリーディスコアとフェアネスのバランスをとるマルチエージェント・フェア・グリーディ政策を提案する。
以上の結果から, 正の強化は長期的公正性にとって有望なメカニズムであるが, 進化モデルの変動に頑健な政策を慎重に設計する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T04:03:23Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。
本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文 参考訳(メタデータ) (2023-03-01T16:22:22Z) - Mitigating Disparity while Maximizing Reward: Tight Anytime Guarantee
for Improving Bandits [6.537940428724029]
腕から得られる報酬が、受信したプル数に応じて増加するIMAB問題について検討する。
我々の主な貢献は、最良の累積報酬を達成するIMAB問題に対する任意のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-19T10:23:40Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Stateful Strategic Regression [20.7177095411398]
結果のゲームにおけるスタックルバーグ均衡を記述し、計算のための新しいアルゴリズムを提供する。
分析の結果,ゲームの結果を形作る上でのマルチインタラクションの役割について,いくつかの興味深い知見が得られた。
最も重要なことは、処理時に複数ラウンドの相互作用を行うことで、主成分は、目的の方向に努力を蓄積するために、エージェントにインセンティブを与えるのにより効果的であることを示すことである。
論文 参考訳(メタデータ) (2021-06-07T17:46:29Z) - Risk Aware and Multi-Objective Decision Making with Distributional Monte
Carlo Tree Search [3.487620847066216]
本稿では,個別のポリシー実行から実現可能なリターンの効用に関する後続分布を学習するアルゴリズムを提案する。
提案アルゴリズムは,多目的強化学習における最先端の手法よりも,期待されるリターンの有効性に優れる。
論文 参考訳(メタデータ) (2021-02-01T16:47:39Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Online Model Selection: a Rested Bandit Formulation [49.69377391589057]
静止したバンディット設定における最善のアーム識別問題を紹介し,解析する。
我々は、この問題の後悔の新しい概念を定義し、ゲームの終わりに最小の期待損失を持つ腕を常に再生するポリシーと比較します。
最近のバンディット文献における既知のモデル選択の試みとは異なり、アルゴリズムは問題の特定の構造を利用して、予想される損失関数の未知のパラメータを学習する。
論文 参考訳(メタデータ) (2020-12-07T08:23:08Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。