論文の概要: Selection of the Best Policy under Fairness Constraints for Subpopulations
- arxiv url: http://arxiv.org/abs/2605.09945v1
- Date: Mon, 11 May 2026 03:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.502671
- Title: Selection of the Best Policy under Fairness Constraints for Subpopulations
- Title(参考訳): 地域住民の公正な制約の下でのベスト政策の選択
- Authors: Tingyu Zhu, Yuhang Wu, Zeyu Zheng,
- Abstract要約: 医療、公共政策、臨床開発における多くの高い意思決定は、異種集団に一様に適用される単一の方針にコミットする必要がある。
我々は,この問題を,人口当たりの最低限の基準を満たす政策の中で,最も高い平均性能の政策を特定するために,公正制約問題の選択として定式化する。
フレームワークを一般のクローズドセットおよびペナルティベースのフェアネス仕様に拡張し、一致保証を行う。
- 参考スコア(独自算出の注目度): 12.594337394382542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many high-stakes decisions in health care, public policy, and clinical development require committing to a single policy that will be applied uniformly across a heterogeneous population. Regulatory and fairness standards sometime requires that the chosen policy performs adequately in every pre-specified subpopulation, not only on average. We formalize this as a Selection of the Best with Fairness Constraints (SBFC) problem, in order to identify the policy with the highest average performance among those policies that meet a minimum per-subpopulation threshold. We establish an instance-specific lower bound on sample complexity of the SBFC problem. We then develop a Track-and-Stop with Constraints on Subpopulation (T-a-S-CS) algorithm that achieves the lower bound asymptotically. We extend the framework to general closed-set and penalty-based fairness specifications with matching guarantees. Numerical experiments and a case study using the International Stroke Trial demonstrate substantial efficiency gains over policy-level allocation baselines.
- Abstract(参考訳): 医療、公共政策、臨床開発における多くの高い意思決定は、異種集団に一様に適用される単一の方針にコミットする必要がある。
規制と公正の基準は、選択された政策が、平均だけでなく、事前に特定されたすべてのサブポピュレーションで適切に機能することを要求することもある。
我々は,この問題を,人口当たりの最低限の基準を満たす政策の中で,最も高い平均性能の政策を特定するために,最良公正制約(SBFC)問題として定式化する。
我々は、SBFC問題のサンプル複雑性に基づいて、インスタンス固有の下限を確立する。
次に, サブポピュレーション制約付きトラック・アンド・ストップ(T-a-S-CS)アルゴリズムを開発した。
フレームワークを一般のクローズドセットおよびペナルティベースのフェアネス仕様に拡張し、その保証を満たす。
国際ストロークトライアルを用いた数値実験とケーススタディは、政策レベルのアロケーションベースラインよりもかなりの効率向上を示した。
関連論文リスト
- Risk-Controlled Post-Processing of Decision Policies [38.38357747696667]
本稿では,リスク管理後処理について検討する。決定論的ベースラインポリシーが与えられた場合,ユーザ特定損失に対するリスク制約の対象となるベースラインとの合意を最大化する新たなポリシーを選択する。
最適政策にはしきい値構造があり、フォールバック政策への切り替えが条件違反リスクを大幅に減少させる状況以外はベースラインに従っていることを示す。
新型コロナウイルスの放射線画像診断タスク、LCMルーティング問題、および合成多クラス決定タスクの実験により、標的のポストプロセッシングは、スコアブラインドランダムミキシングよりもベースラインとのほぼ一致を維持しつつ、リスク予算を満たすか、ほぼ満たすことができることが示された。
論文 参考訳(メタデータ) (2026-05-07T16:03:24Z) - Learning Optimal Individualized Decision Rules with Conditional Demographic Parity [7.125803218132866]
本稿では,DPとCDPの制約を最適IDDの推定に組み込む新しい枠組みを提案する。
DP および CDP 制約下での理論的に最適な IDR は、制約のない最適 IDR に摂動を適用することで得られることを示す。
論文 参考訳(メタデータ) (2026-03-05T14:39:32Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL [6.224756774400233]
本研究では, 平均回帰MDPにおけるオフライン強化学習について検討し, 分散シフトと非一様カバレッジの観点から, さらなる課題を提示する。
対象とする政策,特にバイアススパンと新しい政策が半径を超えることのみに基づき,平均逆オフラインRLに束縛された最初の完全単一政治サンプルの複雑性が生じる。
論文 参考訳(メタデータ) (2025-06-26T00:22:39Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold Policies [30.57323631122579]
我々は、経済、医療、デジタル広告の応用に関する、ユビキタスなポリシーであるしきい値ポリシーに焦点を当てている。
既存の方法は、潜在的に非力な安全チェックに依存し、安全な改善を見つける機会を制限する。
本手法は, 逆条件下では, 既定誤差レベルに対して, 基準値よりも悪いポリシーを採用する確率を制御できることが示される。
論文 参考訳(メタデータ) (2024-08-21T21:38:03Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。