論文の概要: Democratic Preference Alignment via Sortition-Weighted RLHF
- arxiv url: http://arxiv.org/abs/2602.05113v1
- Date: Wed, 04 Feb 2026 22:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.65744
- Title: Democratic Preference Alignment via Sortition-Weighted RLHF
- Title(参考訳): ソリション重み付きRLHFによる民主的選好アライメント
- Authors: Suvadip Sana, Jinzhou Wu, Martin T. Wells,
- Abstract要約: DemPOはアルゴリズムのソートを施したフレームワークで、市民アセンブリを構成するのと同じメカニズムを好みに基づく微調整に応用する。
我々はLlamaモデルを,各スキームで微調整された10億から80億のパラメータに評価した。
これらの結果は、選好収集段階における人口統計学的代表性を高めることは、ポストホック補正よりも、代表者から引き出された価値を反映した行動がより良く反映されるモデルが得られることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whose values should AI systems learn? Preference based alignment methods like RLHF derive their training signal from human raters, yet these rater pools are typically convenience samples that systematically over represent some demographics and under represent others. We introduce Democratic Preference Optimization, or DemPO, a framework that applies algorithmic sortition, the same mechanism used to construct citizen assemblies, to preference based fine tuning. DemPO offers two training schemes. Hard Panel trains exclusively on preferences from a quota satisfying mini public sampled via sortition. Soft Panel retains all data but reweights each rater by their inclusion probability under the sortition lottery. We prove that Soft Panel weighting recovers the expected Hard Panel objective in closed form. Using a public preference dataset that pairs human judgments with rater demographics and a seventy five clause constitution independently elicited from a representative United States panel, we evaluate Llama models from one billion to eight billion parameters fine tuned under each scheme. Across six aggregation methods, the Hard Panel consistently ranks first and the Soft Panel consistently outperforms the unweighted baseline, with effect sizes growing as model capacity increases. These results demonstrate that enforcing demographic representativeness at the preference collection stage, rather than post hoc correction, yields models whose behavior better reflects values elicited from representative publics.
- Abstract(参考訳): AIシステムはどの価値を学ぶべきか?
RLHFのような嗜好に基づくアライメント法は、人間のレーダからトレーニング信号を引き出すが、これらのレーダプールは一般的に、一部の人口層を体系的に表現し、その下に他の層を表わす便利なサンプルである。
本稿では,民生組立を構成するのと同じ機構であるアルゴリズム的選別を適用するフレームワークであるDemPOを,嗜好に基づく微調整に導入する。
DemPOは2つのトレーニングスキームを提供している。
ハード・パネルの列車は、選別でサンプリングされたミニ・パブリックを満足するクォータからのみ選好される。
ソフトパネルは全てのデータを保持するが、ソート抽選の下で各レーダを包含確率で再重み付けする。
ソフトパネル重み付けは, 期待されたハードパネルの目標を閉じた形で回収することを示す。
レーダ人口と人間の判断を組み合わせ,米国代表パネルから独立して抽出された705条構成の公的な選好データセットを用いて,各スキームで微調整された10億から80億のパラメータからLlamaモデルを評価する。
6つのアグリゲーション法で、ハードパネルは第1位、ソフトパネルはモデルキャパシティが増加するにつれて効果が増大するが、アンウェイトベースラインよりも常に優れる。
これらの結果は、選好収集段階における人口統計学的代表性を高めることは、ポストホック補正よりも、代表者から引き出された価値を反映した行動がより良く反映されるモデルが得られることを示している。
関連論文リスト
- Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - Latent Collective Preference Optimization: A General Framework for Robust LLM Alignment [7.1259212876994695]
雑音データから潜在集団コンセンサスを学習するためにLCPO(Latent Collective Preference Optimization)を導入する。
本実験はLCPOの汎用フレームワークとしての有効性を実証し、4つの最先端アライメントアルゴリズムを一貫して強化した。
Mistral と Llama 3 モデルに適用すると、LCPO を拡張した手法は AlpacaEval 2 と Arena-Hard でかなりの利得を達成し、両方のベンチマークで最大 7.0 % 改善した。
論文 参考訳(メタデータ) (2025-09-29T01:17:49Z) - hyperFA*IR: A hypergeometric approach to fair rankings with finite candidate pool [0.0]
本稿では,候補の有限集合から抽出したランキングの公平性を評価するためのフレームワークである hyperFA*IR を提案する。
これは超幾何分布に基づく生成プロセスに依存しており、固定されたグループサイズから置き換えることなくサンプリングによって実世界のシナリオをモデル化する。
また,計算コストのかかるパラメータチューニングを回避し,不正ランキングを効率的に検出するモンテカルロアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-17T09:45:08Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences [6.398937923320069]
我々は、既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。
PALは,強いベースラインと比較して,競争報酬モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2024-06-12T17:54:54Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。