Fugu-MT 論文翻訳(概要): Unfair Utilities and First Steps Towards Improving Them

論文の概要: Unfair Utilities and First Steps Towards Improving Them

arxiv url: http://arxiv.org/abs/2306.00636v2
Date: Mon, 17 Mar 2025 21:29:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:09.250573
Title: Unfair Utilities and First Steps Towards Improving Them
Title（参考訳）: 不公平なユーティリティと最初のステップ - テーマの改善に向けて
Authors: Frederik Hytting Jørgensen, Sebastian Weichwald, Jonas Peters,
Abstract要約: 情報フェアネスの価値を定義し、この基準に違反したユーティリティ関数を使わないよう提案する。この原理は,情報フェアネスの価値を満足するように,これらのユーティリティ機能を変更することを示唆している。我々は、情報の公平さの価値が認められない直感的に公正な政策を知らない。
参考スコア（独自算出の注目度）: 8.841187891291785
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many fairness criteria constrain the policy or choice of predictors, which can have unwanted consequences, in particular, when optimizing the policy under such constraints. Here, we advocate to instead focus on the utility function the policy is optimizing for. We define value of information fairness and propose to not use utility functions that violate this criterion. This principle suggests to modify these utility functions such that they satisfy value of information fairness. We describe how this can be done and discuss consequences for the corresponding optimal policies. We apply our framework to thought experiments and the COMPAS data. Focussing on the utility function provides better answers than existing fairness notions: We are not aware of any intuitively fair policy that is disallowed by value of information fairness, and when we find that value of information fairness recommends an intuitively unfair policy, no existing fairness notion finds an intuitively fair policy.
Abstract（参考訳）: 多くの公正基準は、予測者のポリシーや選択を制約するが、これは特にそのような制約の下でポリシーを最適化する場合、望ましくない結果をもたらす可能性がある。ここでは、政策が最適化しているユーティリティ機能に焦点を合わせることを推奨する。情報フェアネスの価値を定義し、この基準に違反したユーティリティ関数を使わないよう提案する。この原理は,情報フェアネスの価値を満足するように,これらのユーティリティ機能を変更することを示唆している。本稿は、これを実現する方法を説明し、対応する最適ポリシーについて結果について議論する。我々は,思考実験とCompASデータに適用する。私たちは、情報フェアネスの価値によって許可されていない直感的に公正なポリシーを意識していません。そして、情報フェアネスの価値が直感的に不公平なポリシーを推奨すると、既存の公正の概念は直感的に公正なポリシーを見出すことができません。

関連論文リスト

Efficient and Sharp Off-Policy Learning under Unobserved Confounding [25.068617118126824]
本研究では,未観測のコンファウンディングを伴うシナリオにおいて,個人化された非政治学習のための新しい手法を開発する。本手法は,未観測のコンバウンディングが問題となるような意思決定に極めて有用である。
論文参考訳（メタデータ） (2025-02-18T16:42:24Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文参考訳（メタデータ） (2024-04-01T01:27:07Z)
Local Policy Improvement for Recommender Systems [8.617221361305901]
我々は、以前デプロイされたポリシーから収集されたデータをもとに、新しいポリシーをトレーニングする方法を示す。我々は,地方政策改善の代替策として,非政治的是正を伴わないアプローチを提案する。この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
論文参考訳（メタデータ） (2022-12-22T00:47:40Z)
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文参考訳（メタデータ） (2022-12-19T22:43:08Z)
Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文参考訳（メタデータ） (2022-06-09T10:39:33Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
Safe Policy Learning through Extrapolation: Application to Pre-trial Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文参考訳（メタデータ） (2021-09-22T00:52:03Z)
On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文参考訳（メタデータ） (2021-04-06T05:23:20Z)
Fair Set Selection: Meritocracy and Social Welfare [6.205308371824033]
候補集団から一組の個人を選定する問題を実用的最大化問題として定式化する。意思決定者の視点からは、期待されるユーティリティを最大化する選択ポリシーを見つけることと等価である。我々の枠組みは、選択政策に関して個人が期待する限界貢献(EMC)の概念を、長所主義からの逸脱の尺度として導く。
論文参考訳（メタデータ） (2021-02-23T20:36:36Z)
Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文参考訳（メタデータ） (2020-12-30T03:22:35Z)
Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。 BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文参考訳（メタデータ） (2020-12-12T23:09:21Z)
Optimal Policies for the Homogeneous Selective Labels Problem [19.54948759840131]
本稿では,選択ラベルに直面する意思決定方針の学習について述べる。割引総報酬を最大化するためには、最適政策がしきい値ポリシーであることが示される。数え切れない無限水平平均報酬に対して、最適政策は全ての状態において肯定的な受容確率を持つ。
論文参考訳（メタデータ） (2020-11-02T23:32:53Z)
Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning with Average and Discounted Rewards [15.082715993594121]
利用者を公平に扱う政策を学習することの問題点について検討する。本稿では、公正性の概念を符号化する目的関数を最適化する、この新しいRL問題を定式化する。いくつかの古典的深部RLアルゴリズムが、我々の公正な最適化問題にどのように適応できるかを述べる。
論文参考訳（メタデータ） (2020-08-18T07:17:53Z)
Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文参考訳（メタデータ） (2020-06-10T03:11:40Z)
Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文参考訳（メタデータ） (2020-06-06T15:52:05Z)
Efficient Evaluation of Natural Stochastic Policies in Offline Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文参考訳（メタデータ） (2020-06-06T15:08:24Z)
Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文参考訳（メタデータ） (2020-02-12T18:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。