論文の概要: Generating Fair Consensus Statements with Social Choice on Token-Level MDPs
- arxiv url: http://arxiv.org/abs/2510.14106v1
- Date: Wed, 15 Oct 2025 21:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.623829
- Title: Generating Fair Consensus Statements with Social Choice on Token-Level MDPs
- Title(参考訳): 社会選択型公正合意書の作成
- Authors: Carter Blair, Kate Larson,
- Abstract要約: タスクを多目的トークンレベルマルコフ決定プロセス(MDP)としてモデル化する。
各エージェントに対するトークンレベルの報酬は、それぞれのポリシー(例えば、パーソナライズされた言語モデル)から導かれる。
このアプローチは、そのようなポリシーが最適Q-函数を暗黙的に定義し、値関数なしで各生成ステップでの報酬を定量化する原則的な方法を提供する。
- 参考スコア(独自算出の注目度): 7.5036512760759715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current frameworks for consensus statement generation with large language models lack the inherent structure needed to provide provable fairness guarantees when aggregating diverse free-form opinions. We model the task as a multi-objective, token-level Markov Decision Process (MDP), where each objective corresponds to an agent's preference. Token-level rewards for each agent are derived from their policy (e.g., a personalized language model). This approach utilizes the finding that such policies implicitly define optimal Q-functions, providing a principled way to quantify rewards at each generation step without a value function (Rafailov et al., 2024). This MDP formulation creates a formal structure amenable to analysis using principles from social choice theory. We propose two approaches grounded in social choice theory. First, we propose a stochastic generation policy guaranteed to be in the ex-ante core, extending core stability concepts from voting theory to text generation. This policy is derived from an underlying distribution over complete statements that maximizes proportional fairness (Nash Welfare). Second, for generating a single statement, we target the maximization of egalitarian welfare using search algorithms within the MDP framework. Empirically, experiments using language models to instantiate agent policies show that search guided by the egalitarian objective generates consensus statements with improved worst-case agent alignment compared to baseline methods, including the Habermas Machine (Tessler et al., 2024).
- Abstract(参考訳): 大規模な言語モデルによるコンセンサスステートメント生成のための現在のフレームワークでは、多様な自由形式の意見が集約されるときに、証明可能な公平性を保証するために必要な構造が欠如している。
我々は,タスクを多目的のトークンレベルマルコフ決定プロセス(MDP)としてモデル化する。
各エージェントに対するトークンレベルの報酬は、それぞれのポリシー(例えば、パーソナライズされた言語モデル)から導き出される。
このアプローチは、これらのポリシーが最適Q-函数を暗黙的に定義し、値関数を使わずに各生成ステップでの報酬を定量化する原則的な方法を提供する(Rafailov et al , 2024)。
このMDPの定式化は、社会的選択論の原理を用いて分析可能な形式構造を生成する。
社会的選択論に基づく2つのアプローチを提案する。
まず,基本安定性の概念を投票理論からテキスト生成まで拡張する確率的生成ポリシーを提案する。
この政策は、比例フェアネス(ナッシュ福祉)を最大化する完全なステートメントに関する基礎的な分布から導かれる。
第2に、単一の声明を生成するために、MDPフレームワーク内の探索アルゴリズムを用いて平等福祉の最大化を目標とする。
実証的に、言語モデルを用いてエージェントポリシーをインスタンス化する実験により、平等主義的目的によって導かれた検索は、Habermas Machine(Tessler et al , 2024)などのベースライン手法と比較して、最悪のエージェントアライメントが改善されたコンセンサスステートメントを生成する。
関連論文リスト
- Best-Effort Policies for Robust Markov Decision Processes [69.60742680559788]
我々は、ロバスト MDP (RMDPs) として知られる遷移確率の組によるマルコフ決定過程(MDPs)の共通一般化について研究する。
このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。
我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-11T09:18:34Z) - hyperFA*IR: A hypergeometric approach to fair rankings with finite candidate pool [0.0]
本稿では,候補の有限集合から抽出したランキングの公平性を評価するためのフレームワークである hyperFA*IR を提案する。
これは超幾何分布に基づく生成プロセスに依存しており、固定されたグループサイズから置き換えることなくサンプリングによって実世界のシナリオをモデル化する。
また,計算コストのかかるパラメータチューニングを回避し,不正ランキングを効率的に検出するモンテカルロアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-17T09:45:08Z) - QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA [46.65999744568314]
本稿では,モノリシック報酬を解釈可能な原理固有評価に分解するQA-LIGNを紹介する。
ランマ-3.1-8B-インストラクションの適用により、QA-LIGNは攻撃成功率を最大68.7%まで下げる一方で、偽拒絶率0.67%を維持している。
論文 参考訳(メタデータ) (2025-06-09T18:24:57Z) - Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models [20.810300785340072]
Conformal Prediction with Query Oracle (CPQ)は、これらの目的間の最適な相互作用を特徴付けるフレームワークである。
本アルゴリズムは2つの基本原理に基づいて構築されている。一方は最適なクエリポリシーを規定し、他方はクエリされたサンプルから予測セットへの最適マッピングを定義する。
論文 参考訳(メタデータ) (2025-06-05T18:26:14Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。