論文の概要: A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs
- arxiv url: http://arxiv.org/abs/2512.08786v2
- Date: Mon, 15 Dec 2025 19:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.904621
- Title: A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs
- Title(参考訳): LLMの多面的アライメントのためのフェデレーションRLHFの選好アグリゲーションの体系的評価
- Authors: Mahmoud Srewa, Tianyu Zhao, Salma Elmalaki,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を,連合学習環境における多種多様な人間の嗜好と整合させるという課題に対処する。
本研究では,人間の嗜好に異なるアグリゲーション戦略を用いる場合,アライメント品質と公正性のトレードオフを評価する総合評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.840505903487544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of aligning large language models (LLMs) with diverse human preferences within federated learning (FL) environments, where standard methods often fail to adequately represent diverse viewpoints. We introduce a comprehensive evaluation framework that systematically assesses the trade-off between alignment quality and fairness when using different aggregation strategies for human preferences. In our federated setting, each group locally evaluates rollouts and produces reward signals, and the server aggregates these group-level rewards without accessing any raw data. Specifically, we evaluate standard reward aggregation techniques (min, max, and average) and introduce a novel adaptive scheme that dynamically adjusts preference weights based on a group's historical alignment performance. Our experiments on question-answering (Q/A) tasks using a PPO-based RLHF pipeline demonstrate that our adaptive approach consistently achieves superior fairness while maintaining competitive alignment scores. This work offers a robust methodology for evaluating LLM behavior across diverse populations and provides a practical solution for developing truly pluralistic and fairly aligned models.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) と多種多様な人間の嗜好をフェデレート学習 (FL) 環境で整合させるという課題に対処する。
本研究では,人間の嗜好に異なるアグリゲーション戦略を用いる場合,アライメント品質とフェアネスのトレードオフを体系的に評価する総合評価フレームワークを提案する。
当社のフェデレーション設定では、各グループがローカルにロールアウトを評価し、報酬信号を生成し、サーバは生データにアクセスせずにこれらのグループレベルの報酬を集約する。
具体的には、標準報酬集計手法(最小、最大、平均)を評価し、グループの歴史的アライメントのパフォーマンスに基づいて、好みの重みを動的に調整する新しい適応スキームを導入する。
PPOをベースとしたRLHFパイプラインを用いた質問応答(Q/A)タスクに関する実験により、我々の適応的アプローチは、競争力のあるアライメントスコアを維持しながら、常に優れた公正性を達成することを示す。
この研究は、多様な集団にわたるLSMの挙動を評価するための堅牢な方法論を提供し、真に多元的かつかなり整合したモデルを開発するための実践的なソリューションを提供する。
関連論文リスト
- GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning [26.616849067985967]
Groupwiseは、大規模な言語モデルのための新しいパラダイムである。
高品質な検索とランキングデータのための革新的なパイプラインを提案する。
得られたデータは、リランカのトレーニングだけでなく、レトリバーのトレーニングにも利用することができる。
論文 参考訳(メタデータ) (2025-11-10T15:25:31Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Pareto-Optimal Learning from Preferences with Hidden Context [17.590330740964266]
本稿では,多元的アライメントを実現するPOPLを提案する。
理論的および実証的な評価は,POPLが報酬関数とポリシーの学習において,基本的手法を超越していることを示している。
また,POPLは,グループフェアネスの特定の概念を最適化する手法の基盤としても機能することを示す。
論文 参考訳(メタデータ) (2024-06-21T18:57:38Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。
人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。
本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文 参考訳(メタデータ) (2024-02-22T18:20:33Z) - Re-weighting Based Group Fairness Regularization via Classwise Robust
Optimization [30.089819400033985]
そこで本研究では,グループフェアネス尺度を学習目標に組み込むことにより,この2つの学習手法を統一する原理的手法を提案する。
我々は,各グループに対して適切な再重み付けを自動的に生成することにより,結果の目的を最小化する反復最適化アルゴリズムを開発した。
実験の結果,FairDROはスケーラブルで,多様なアプリケーションに容易に適用可能であることがわかった。
論文 参考訳(メタデータ) (2023-03-01T12:00:37Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。