論文の概要: The End Justifies the Mean: A Linear Ranking Rule for Proportional Sequential Decisions
- arxiv url: http://arxiv.org/abs/2605.12717v1
- Date: Tue, 12 May 2026 20:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.668092
- Title: The End Justifies the Mean: A Linear Ranking Rule for Proportional Sequential Decisions
- Title(参考訳): The End Justification the Mean: A Linear Ranking Rule for Proportional Sequential Decisions
- Authors: Carmel Baharav, Niclas Boehmer, Bailey Flanigan, Maximilian T. Wittmann,
- Abstract要約: 我々は、繰り返し使用する決定ルールを集合的に選択する方法を研究する。
デフォルトのルールである$(i)$の算術平均は、非常に大義的であることが示されている。
固定線形ルールでは、正確なバッチ毎IPは不可能であるが、バッチ毎IPと長時間IPのギャップはバッチサイズとともに急速に縮小する。
- 参考スコア(独自算出の注目度): 12.640117499079063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI alignment and participatory design motivate a new democratic design problem: how to collectively choose a decision rule to use repeatedly. We study this problem for linear ranking rules, which repeatedly rank items $x_j$ within batches $X=(x_1,\dots,x_m)\in(\mathbb{R}^d)^m$, where each item's ranking is dictated by its score $\langle θ^*,x_j\rangle$ according to a fixed scoring vector $θ^*$. Given voters' preferred scoring vectors $θ^{(1)},\dots,θ^{(n)}$ and their population fractions $α^{(1)},\dots,α^{(n)}$, we ask how to choose a collective vector $θ^*$ satisfying individual proportionality (IP): every voter type $i$ should agree with the resulting rankings to an $α^{(i)}$-proportional degree, either on average over time (long-run IP) or even within each batch (per-batch IP). The default rule, the arithmetic mean of the $θ^{(i)}$, has been shown to be severely majoritarian; more generally, it is not clear that any fixed linear rule can balance many voters' disparate opinions. Our main result is that, surprisingly, there is a simple rule that does satisfy long-run IP: the angular mean, the spherical analog of the arithmetic mean. We then show that exact per-batch IP is impossible for fixed linear rules, but that the gap between per-batch and long-run IP shrinks quickly with batch size. Experiments on three real-world preference datasets show that all rules perform similarly when voters' preferences are homogeneous, while the angular mean substantially improves proportionality in high-disagreement regimes.
- Abstract(参考訳): AIアライメントと参加型設計は、新しい民主的デザイン問題、すなわち、繰り返し使用する決定ルールを集合的に選択する方法を動機付けている。
ここでは,各項目のランク付けを,固定スコアベクトル$θ^*,x_j\rangle$に従って,各項目のランク付けを行う。
投票者の好む採点ベクトル $θ^{(1)},\dots,θ^{(n)}$ とその集団分数 $α^{(1)},\dots,α^{(n)}$ が与えられたとき、どのようにして集合ベクトル $θ^*$ を個別比例性 (IP) で満足するかを問う。
デフォルトの法則である$θ^{(i)}$の算術平均は深刻な大道主義であることが示されているが、より一般的には、固定線型法則が多くの有権者の異なる意見のバランスをとることができるかどうかは明らかではない。
我々の主な結果は、意外なことに、長く続くIPを満足する単純なルールがある: 角平均、算術平均の球面類似である。
次に、固定線形ルールでは正確なバッチ毎IPは不可能であるが、バッチ毎IPと長期IPのギャップはバッチサイズとともに急速に縮小することを示した。
3つの実世界の選好データセットの実験では、全ての規則が、有権者の選好が均質であるときにも同様に機能し、一方、角平均は、高分解能政権における比例性を大幅に改善する。
関連論文リスト
- Reinforcement Learning from Adversarial Preferences in Tabular MDPs [62.73758165845971]
我々は,敵対的嗜好を持つエピソードマルコフ決定プロセス(MDP)の新たな枠組みを導入する。
PbMDP では、標準的なエピソード MDP とは異なり、学習者は2つの候補アーム間の好みを観察する。
我々は、既知遷移の下で、T2/3$という残差境界を達成するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2025-07-15T20:19:32Z) - Allocating Divisible Resources on Arms with Unknown and Random Rewards [25.93048671326331]
我々は、各期間に複数の武器で再生可能資源の1単位を割り当てる意思決定者について検討する。
アームは未知でランダムな報酬であり、その手段は割り当てられたリソースに比例し、分散は割り当てられたリソースのオーダー$b$に比例する。
論文 参考訳(メタデータ) (2023-06-28T21:59:11Z) - Variance-Aware Sparse Linear Bandits [64.70681598741417]
余分な線形包帯に対する最悪のミニマックスは$widetildeThetaleft(sqrtdTright)$である。
ノイズがなく、アクションセットが単位球面である良性設定では、ディビジョン・アンド・コンカーを使用して、$widetildemathcal O(1)$ regretを達成することができる。
我々は,任意の分散対応線形帯域幅アルゴリズムを分散対応線形帯域幅アルゴリズムに変換する汎用フレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T15:55:44Z) - Computationally Efficient Horizon-Free Reinforcement Learning for Linear
Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。
我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。
これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文 参考訳(メタデータ) (2022-05-23T17:59:18Z) - Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文 参考訳(メタデータ) (2022-02-12T21:55:44Z) - Clustering Mixture Models in Almost-Linear Time via List-Decodable Mean
Estimation [58.24280149662003]
本稿では,データセットの大部分を敵が破壊できるリストデコタブル平均推定の問題について検討する。
我々は、ほぼ最適な統計的保証を達成するために、リストデコダブル平均推定のための新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-16T03:34:14Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Lower Bounds for Policy Iteration on Multi-action MDPs [11.401494294855663]
ポリシーイテレーション(英: Policy Iteration、PI)は、任意のマルコフ決定問題(MDP)に対して最適なポリシーを計算するアルゴリズムの古典的なファミリーである。
重要な理論的疑問は、特定のPI変種が入力MDPにおける状態数$n$とアクション数$k$の関数として終了するのに要する回数である。
我々の主な成果は、PIの特定の変種が終了するために$Omega(kn/2)$のイテレーションを取ることができることである。
論文 参考訳(メタデータ) (2020-09-16T17:59:25Z) - List-Decodable Subspace Recovery: Dimension Independent Error in
Polynomial Time [5.812499828391904]
リスト化可能部分空間のリカバリにおいて、入力は$n$ポイント$alpha n$(ある$alpha ll 1/2$)の集合であり、それらは分布$mathcalD$から引き出される。
本研究は, より高速な固定ポリノミカルランニング時間を用いて, アンフェクタブルな集中防止誤差の3つの側面について, 結果を改善するものである。
論文 参考訳(メタデータ) (2020-02-12T18:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。