論文の概要: Optimistic Feasible Search for Closed-Loop Fair Threshold Decision-Making
- arxiv url: http://arxiv.org/abs/2512.22313v1
- Date: Fri, 26 Dec 2025 10:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.987929
- Title: Optimistic Feasible Search for Closed-Loop Fair Threshold Decision-Making
- Title(参考訳): クローズドループフェア閾値決定問題の最適探索
- Authors: Wenzhang Du,
- Abstract要約: バンディットフィードバックからの1次元しきい値ポリシーのオンライン学習について検討する。
我々は,報酬と制約残差に対する信頼境界を維持する単純なグリッドベース手法であるOptimistic Feasible Search (OFS)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Closed-loop decision-making systems (e.g., lending, screening, or recidivism risk assessment) often operate under fairness and service constraints while inducing feedback effects: decisions change who appears in the future, yielding non-stationary data and potentially amplifying disparities. We study online learning of a one-dimensional threshold policy from bandit feedback under demographic parity (DP) and, optionally, service-rate constraints. The learner observes only a scalar score each round and selects a threshold; reward and constraint residuals are revealed only for the chosen threshold. We propose Optimistic Feasible Search (OFS), a simple grid-based method that maintains confidence bounds for reward and constraint residuals for each candidate threshold. At each round, OFS selects a threshold that appears feasible under confidence bounds and, among those, maximizes optimistic reward; if no threshold appears feasible, OFS selects the threshold minimizing optimistic constraint violation. This design directly targets feasible high-utility thresholds and is particularly effective for low-dimensional, interpretable policy classes where discretization is natural. We evaluate OFS on (i) a synthetic closed-loop benchmark with stable contraction dynamics and (ii) two semi-synthetic closed-loop benchmarks grounded in German Credit and COMPAS, constructed by training a score model and feeding group-dependent acceptance decisions back into population composition. Across all environments, OFS achieves higher reward with smaller cumulative constraint violation than unconstrained and primal-dual bandit baselines, and is near-oracle relative to the best feasible fixed threshold under the same sweep procedure. Experiments are reproducible and organized with double-blind-friendly relative outputs.
- Abstract(参考訳): クローズドループ意思決定システム(例えば、貸付、スクリーニング、または再分配リスク評価)は、しばしば公正さとサービス制約の下で活動し、フィードバック効果を誘導する。
本研究は,人口増加率(DP)とサービスレート制約下での帯域幅フィードバックからの一次元しきい値ポリシーのオンライン学習について検討する。
学習者は、各ラウンドごとにスカラースコアのみを観察し、しきい値を選択する。
提案するOFS(Optimistic Feasible Search, Optimistic Feasible Search, OFS)は,各候補閾値に対する信頼境界と制約残差を維持する単純なグリッドベースの手法である。
各ラウンドにおいて、OFSは信頼境界の下で実現可能なしきい値を選択し、そのうちの1つが楽観的な報酬を最大にし、もししきい値が実行可能でなければ、楽観的な制約違反を最小限に抑えるしきい値を選択する。
この設計は、実現可能な高ユーティリティしきい値を直接対象とし、特に離散化が自然な低次元の解釈可能なポリシークラスに有効である。
私たちはOfsを評価します
(i)安定収縮力学と合成閉ループベンチマーク
(II)ドイツ信用とCompASに基礎を置く2つの半合成クローズドループベンチマークは、スコアモデルを訓練し、集団依存の受け入れ決定を集団構成にフィードバックすることで構成される。
すべての環境において、OFSは非拘束および原始二重バンディットベースラインよりも少ない累積的制約違反で高い報酬を達成し、同じスイープ手順の下で最も有効な固定しきい値に対してほぼオーラルである。
実験は再現可能で、二重盲点フレンドリーな相対出力で組織される。
関連論文リスト
- LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Safe, Efficient, and Robust Reinforcement Learning for Ranking and Diffusion Models [2.231476498067998]
論文は、強化学習手法が安全で、サンプル効率が高く、堅牢であるようにどのように設計できるかを調査する。
コンテキスト帯域RLの統一的な視点から判断されたこの作業は、ランキングとレコメンデーション、テキストから画像への拡散モデルという2つの主要なアプリケーション領域に対処する。
論文 参考訳(メタデータ) (2025-10-17T08:37:38Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Ensuring Safety in an Uncertain Environment: Constrained MDPs via Stochastic Thresholds [28.4976864705409]
本稿では,マルコフ決定過程(CMDP)をしきい値に制約し,未知かつ不確実な環境下での強化学習の安全性を目標とした。
我々は、不確実かつ動的環境との相互作用から採取したGrowingWindow推定器を利用して閾値を推定し、悲観的・楽観的閾値(SPOT)を設計する。
SPOTは悲観的および楽観的なしきい値設定の両方で強化学習を可能にする。
論文 参考訳(メタデータ) (2025-04-07T11:58:19Z) - Constrained Linear Thompson Sampling [39.724313550777715]
Constrained Linear Thompson Sampling (COLTS)は、摂動線形プログラムを解くことでアクションを選択するサンプリングベースのフレームワークである。
S-COLTSはゼロリスクと$widetildeO(sqrtd3 T)を許容するが、R-COLTSは$widetildeO(sqrtd3 T)を許容する。
論文 参考訳(メタデータ) (2025-03-03T20:44:58Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - C-Learner: Constrained Learning for Causal Inference [4.370964009390564]
本稿では,両世界の最適な重み付けを実現し,安定したプラグイン推定を実現する新しいデバイアス化手法を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。