論文の概要: Long-Term Fairness with Unknown Dynamics
- arxiv url: http://arxiv.org/abs/2304.09362v2
- Date: Wed, 7 Jun 2023 20:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 19:11:47.293095
- Title: Long-Term Fairness with Unknown Dynamics
- Title(参考訳): 未知のダイナミクスによる長期公正性
- Authors: Tongxin Yin, Reilly Raab, Mingyan Liu, Yang Liu
- Abstract要約: オンライン強化学習の文脈における長期的公正性を定式化する。
アルゴリズムは短期インセンティブを犠牲にして未知のダイナミクスに適応できることを示す。
- 参考スコア(独自算出の注目度): 16.683582656377396
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While machine learning can myopically reinforce social inequalities, it may
also be used to dynamically seek equitable outcomes. In this paper, we
formalize long-term fairness in the context of online reinforcement learning.
This formulation can accommodate dynamical control objectives, such as driving
equity inherent in the state of a population, that cannot be incorporated into
static formulations of fairness. We demonstrate that this framing allows an
algorithm to adapt to unknown dynamics by sacrificing short-term incentives to
drive a classifier-population system towards more desirable equilibria. For the
proposed setting, we develop an algorithm that adapts recent work in online
learning. We prove that this algorithm achieves simultaneous probabilistic
bounds on cumulative loss and cumulative violations of fairness (as statistical
regularities between demographic groups). We compare our proposed algorithm to
the repeated retraining of myopic classifiers, as a baseline, and to a deep
reinforcement learning algorithm that lacks safety guarantees. Our experiments
model human populations according to evolutionary game theory and integrate
real-world datasets.
- Abstract(参考訳): 機械学習はミオプティックに社会的不平等を補強するが、平等な結果を動的に求めるためにも用いられる。
本稿では,オンライン強化学習の文脈における長期公正性を定式化する。
この定式化は、人口状態に固有の運転株式など、公正性の静的な定式化に組み込むことができない動的制御目的を満たすことができる。
このフレーミングによってアルゴリズムが未知のダイナミクスに適応できることを実証し、より望ましい平衡に向けて分類器人口システムを駆動する短期的インセンティブを犠牲にすることで証明する。
提案手法では,オンライン学習における最近の研究に適応するアルゴリズムを開発する。
本アルゴリズムは,人口集団間の統計的規則性として,累積損失と累積フェアネス違反の同時確率境界を実現する。
提案手法は,筋タイプ分類器の再訓練をベースラインとして繰り返し行うことと,安全性保証を欠いた深層強化学習アルゴリズムと比較した。
我々の実験は進化ゲーム理論に従って人間の人口をモデル化し、実世界のデータセットを統合する。
関連論文リスト
- Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Dreaming Learning [41.94295877935867]
機械学習システムに新しい情報を導入することは、以前に格納されたデータに干渉する可能性がある。
スチュアート・カウフマンの随伴可能性の概念に着想を得た学習アルゴリズムを提案する。
ニューラルネットワークは、予想と異なる統計特性を持つデータシーケンスを円滑に受け入れ、統合することを前提としている。
論文 参考訳(メタデータ) (2024-10-23T09:17:31Z) - Dynamic Environment Responsive Online Meta-Learning with Fairness
Awareness [30.44174123736964]
本稿では,FairSAOMLと呼ばれる,適応フェアネスを考慮したオンラインメタ学習アルゴリズムを提案する。
動的環境下での様々な実世界のデータセットに対する実験評価により,提案アルゴリズムが一貫した代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T17:44:35Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Drop Edges and Adapt: a Fairness Enforcing Fine-tuning for Graph Neural
Networks [9.362130313618797]
リンク予測アルゴリズムは、特定の人口集団の個人間のリンクを嫌う傾向がある。
本稿では,グラフニューラルネットワークに対して,微調整戦略を用いて公平性を強制する新しい手法を提案する。
DEAの新たな特徴の1つは、微調整に離散的だが学習可能な隣接行列を使うことができることである。
論文 参考訳(メタデータ) (2023-02-22T16:28:08Z) - Finite-Time Consensus Learning for Decentralized Optimization with
Nonlinear Gossiping [77.53019031244908]
本稿では,非線形ゴシップ(NGO)に基づく分散学習フレームワークを提案する。
コミュニケーション遅延とランダム化チャットが学習にどう影響するかを解析することで,実践的なバリエーションの導出が可能となる。
論文 参考訳(メタデータ) (2021-11-04T15:36:25Z) - Network Classifiers Based on Social Learning [71.86764107527812]
空間と時間に対して独立に訓練された分類器を結合する新しい手法を提案する。
提案したアーキテクチャは、ラベルのないデータで時間とともに予測性能を改善することができる。
この戦略は高い確率で一貫した学習をもたらすことが示され、未訓練の分類器に対して頑健な構造が得られる。
論文 参考訳(メタデータ) (2020-10-23T11:18:20Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。