Fugu-MT 論文翻訳(概要): What If I Don't Like Any Of The Choices? The Limits of Preference Elicitation for Participatory Algorithm Design

論文の概要: What If I Don't Like Any Of The Choices? The Limits of Preference Elicitation for Participatory Algorithm Design

arxiv url: http://arxiv.org/abs/2007.06718v1
Date: Mon, 13 Jul 2020 21:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 00:50:53.966728
Title: What If I Don't Like Any Of The Choices? The Limits of Preference Elicitation for Participatory Algorithm Design
Title（参考訳）: もし私の選択が気に入らなかったら? 参加型アルゴリズム設計における選好誘発の限界
Authors: Samantha Robertson and Niloufar Salehi
Abstract要約: 限られた資源の分配における個人の嗜好満足度を最適化することは、実際には社会的かつ分配的な正義への進歩を阻害する可能性があると論じる。個人の嗜好は有用な信号であるが、より表現力があり、包括的な形での民主的参加をサポートするよう拡張されるべきである。
参考スコア（独自算出の注目度）: 12.386462516398469
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emerging methods for participatory algorithm design have proposed collecting and aggregating individual stakeholder preferences to create algorithmic systems that account for those stakeholders' values. Using algorithmic student assignment as a case study, we argue that optimizing for individual preference satisfaction in the distribution of limited resources may actually inhibit progress towards social and distributive justice. Individual preferences can be a useful signal but should be expanded to support more expressive and inclusive forms of democratic participation.
Abstract（参考訳）: 参加型アルゴリズム設計の創発的手法は、利害関係者の価値観を考慮したアルゴリズムシステムを構築するために、個々の利害関係者の好みを収集し集約することを提案した。アルゴリズムによる学生割当を事例として,限られた資源の分布における個人の選好満足度を最適化することは,実際には社会的・分散的正義への進歩を阻害する可能性があると論じた。個人の嗜好は有用な信号であるが、より表現力があり包括的な民主的参加を支援するために拡張されるべきである。

関連論文リスト

PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。 PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文参考訳（メタデータ） (2025-02-09T04:31:30Z)
Merit-Based Sortition in Decentralized Systems [0.0]
我々は'メリットベースソート'のための簡単なアルゴリズムを提案する。本稿では,本アルゴリズムにより,活性集合の性能を本質性の2倍に向上することを示す。これは、メリットベースのソートによって、ドラフトされた'アクティブ'セットに対する統計的に重要なパフォーマンス向上が保証されることを意味する。
論文参考訳（メタデータ） (2024-11-11T19:00:31Z)
Social Choice for Heterogeneous Fairness in Recommendation [9.753088666705985]
推薦システムにおけるアルゴリズムの公正性は、様々な利害関係者のニーズによく注意する必要がある。それまでの作業はしばしば、公正性の固定された単目的の定義によって制限されてきた。我々の研究は、計算社会の選択の観点からのフェアネスを推奨する。
論文参考訳（メタデータ） (2024-10-06T17:01:18Z)
Pareto-Optimal Learning from Preferences with Hidden Context [17.590330740964266]
本稿では,多元的アライメントを実現するPOPLを提案する。理論的および実証的な評価は,POPLが報酬関数とポリシーの学習において,基本的手法を超越していることを示している。また,POPLは,グループフェアネスの特定の概念を最適化する手法の基盤としても機能することを示す。
論文参考訳（メタデータ） (2024-06-21T18:57:38Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。 r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。 r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-01-12T11:27:55Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文参考訳（メタデータ） (2022-06-01T13:46:25Z)
Achieving Counterfactual Fairness for Causal Bandit [18.077963117600785]
期待される報酬を最大化するために、各ステップでアイテムを推薦する方法を研究します。次に, 対実的個人的公正性を達成するためのフェア因果バンドイット(F-UCB)を提案する。
論文参考訳（メタデータ） (2021-09-21T23:44:48Z)
Adaptive Combinatorial Allocation [77.86290991564829]
割り当てが繰り返し選択され、戻り値は不明だが学習可能であり、決定には制約が伴う。我々のモデルは、複雑な制約があっても、両側のマッチングと一方のマッチングをカバーしています。
論文参考訳（メタデータ） (2020-11-04T15:02:59Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Fair and Useful Cohort Selection [12.319543784920304]
Dwork と Ilvento は、fair-cohort-selection 問題と呼ばれるアーティピーパル問題を導入した。与えられた大きさの候補のグループを選択するために、単一の公正分類器がそれ自身で構成される。オフライン設定とオンライン設定の両方で、この問題に対して最適な(あるいはほぼ最適)時間アルゴリズムを提供する。
論文参考訳（メタデータ） (2020-09-04T14:06:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。