論文の概要: Policy Aggregation
- arxiv url: http://arxiv.org/abs/2411.03651v1
- Date: Wed, 06 Nov 2024 04:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:03.958903
- Title: Policy Aggregation
- Title(参考訳): 政策集約
- Authors: Parand A. Alamdari, Soroush Ebadian, Ariel D. Procaccia,
- Abstract要約: 我々は、マルコフ決定プロセスにおいて、異なる報酬関数と最適なポリシーを持つ複数の個人とAIバリューアライメントの課題を考察する。
我々は、この問題を政策集約の1つとして定式化し、そこでは、望ましい集団的政策を特定することを目的としている。
主要な洞察は、社会的選択法は、国家が占有するポリトープのサブセットのボリュームと順序的選好を識別することで再解釈できるということである。
- 参考スコア(独自算出の注目度): 21.21314301021803
- License:
- Abstract: We consider the challenge of AI value alignment with multiple individuals that have different reward functions and optimal policies in an underlying Markov decision process. We formalize this problem as one of policy aggregation, where the goal is to identify a desirable collective policy. We argue that an approach informed by social choice theory is especially suitable. Our key insight is that social choice methods can be reinterpreted by identifying ordinal preferences with volumes of subsets of the state-action occupancy polytope. Building on this insight, we demonstrate that a variety of methods--including approval voting, Borda count, the proportional veto core, and quantile fairness--can be practically applied to policy aggregation.
- Abstract(参考訳): 我々は、マルコフ決定プロセスにおいて、異なる報酬関数と最適なポリシーを持つ複数の個人とAIの価値アライメントの課題を考察する。
我々は、この問題を政策集約の1つとして定式化し、そこでは、望ましい集団的政策を特定することを目的としている。
社会的選択論に基づくアプローチは特に適していると論じる。
我々の重要な洞察は、社会的選択法は、国家が占有するポリトープのサブセットの量で順序的選好を識別することで再解釈できるということである。
この知見に基づいて、承認投票、ボルダ数、比例ベトコア、および量的公平性を含む様々な方法が、政策集約に実用的に適用可能であることを実証する。
関連論文リスト
- Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。
本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T15:26:38Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Clustered Policy Decision Ranking [6.338178373376447]
n の時間ステップのあるエピソードでは、ポリシーは取るべき行動について n の判断をするが、その多くが観察者には直感的でないように見える。
これらの決定のどちらが報酬の達成に直接貢献し、その貢献がどの程度重要かは明らかでない。
統計的共分散推定に基づくブラックボックス手法を提案し,その状態における決定の重要度に応じて,各クラスタをクラスタ化してランク付けする。
論文 参考訳(メタデータ) (2023-11-21T20:16:02Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Well-being policy evaluation methodology based on WE pluralism [0.0]
本研究は,客観的指標に基づく多元論から,主観的文脈を強調する概念的多元論へ移行する。
狭い範囲のWEコンセンサスにウェルビーイングと共同ファクトフィニングを組み合わせることにより、政策評価法を定式化する。
論文 参考訳(メタデータ) (2023-05-08T06:51:43Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Fair Set Selection: Meritocracy and Social Welfare [6.205308371824033]
候補集団から一組の個人を選定する問題を実用的最大化問題として定式化する。
意思決定者の視点からは、期待されるユーティリティを最大化する選択ポリシーを見つけることと等価である。
我々の枠組みは、選択政策に関して個人が期待する限界貢献(EMC)の概念を、長所主義からの逸脱の尺度として導く。
論文 参考訳(メタデータ) (2021-02-23T20:36:36Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。