論文の概要: Adaptive Pluralistic Alignment: A pipeline for dynamic artificial democracy
- arxiv url: http://arxiv.org/abs/2605.01642v1
- Date: Sat, 02 May 2026 23:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.863619
- Title: Adaptive Pluralistic Alignment: A pipeline for dynamic artificial democracy
- Title(参考訳): Adaptive Pluralistic Alignment: 動的人工民主主義のためのパイプライン
- Authors: Rachel Freedman,
- Abstract要約: 適応多言語アライメント(Adaptive Pluralistic Alignment, APA)は、複数のAIシステムを更新して、進化する値を追跡するモジュールパイプラインである。
APAは、低ランク報酬ベース分解によるコンパクトなパーソナライズされた報酬モデルを学習し、(2)社会的選択理論による投票を通じて、候補者の成果の中から総合的に選択する陪審員として使用し、(3)固定報酬ベースに新しいアノテータ重みを付加して、陪審員を時間とともに効率的に適応させる。
- 参考スコア(独自算出の注目度): 2.653040099621359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prevailing alignment methods target a fixed set of preferences and therefore risk forcing value lock-in as societal norms evolve over time. We introduce Adaptive Pluralistic Alignment (APA), a modular pipeline for updating pluralistically aligned AI systems to track evolving values and avoid value lock-in without repeating costly pretraining or large-scale data collection. APA has three stages: (1) learning compact personalized reward models via low-rank reward basis decomposition, (2) using these models as a jury that collectively selects among candidate outputs through social-choice-theoretic voting, and (3) efficiently adapting the jury over time by fitting new annotator weights over the fixed reward bases as values shift. The resulting system is efficient, explainable, steerable, and modular. We implement a proof-of-concept instantiation using the PRISM multi-user alignment dataset and simulated historical annotators, and provide preliminary analysis showing that jury composition and the choice of voting rule can substantially affect outcomes, particularly when jury preferences are heterogeneous. We provide full code and resulting preference datasets at https://anonymous.4open.science/r/apa.
- Abstract(参考訳): 一般的なアライメント手法は、固定された好みのセットをターゲットにしており、社会的規範が時間とともに進化するにつれて、価値のロックインを強制するリスクがある。
本稿では,APA(Adaptive Pluralistic Alignment)について紹介する。APA(Adaptive Pluralistic Alignment)は,複数のAIシステムを更新して,コストのかかる事前学習や大規模データ収集を繰り返すことなく,進化する値を追跡し,値ロックインを回避するためのモジュールパイプラインである。
APA は,(1) 低ランク報酬ベース分解によるコンパクトなパーソナライズド報酬モデル学習,(2) 社会的選択理論投票による候補出力の中から一括的に選択する陪審,(3) 固定報酬ベースに新たなアノテータ重みを付加することで,陪審員を時間とともに効率よく適応させる,という3つの段階を有する。
結果のシステムは効率的で説明可能で、操縦可能で、モジュールである。
PRISMマルチユーザアライメントデータセットとシミュレートされた履歴アノテータを用いた概念実証のインスタンス化を実装し、陪審構成と投票規則の選択が、特に陪審の選好が不均一である場合に、結果に大きく影響することを示す予備的分析を行う。
完全なコードと結果の選好データセットをhttps://anonymous.4open.science/r/apa.orgで提供します。
関連論文リスト
- Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T15:00:40Z) - Alternates, Assemble! Selecting Optimal Alternates for Citizens' Assemblies [1.5624421399300306]
市民の集会は、無作為に選ばれた人々が政策問題について議論する、熟考民主主義の影響力のある形態である。
ドロップアウトはプリセレクトされた代替物に置き換えられるが、既存のメソッドはこれらの代替物を選択する方法に対処しない。
代替選択のための最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-02T17:48:33Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。