論文の概要: APPA: Adaptive Preference Pluralistic Alignment for Fair Federated RLHF of LLMs
- arxiv url: http://arxiv.org/abs/2604.04261v1
- Date: Sun, 05 Apr 2026 20:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.009858
- Title: APPA: Adaptive Preference Pluralistic Alignment for Fair Federated RLHF of LLMs
- Title(参考訳): APPA:LLMのfair Federated RLHFに対する適応的選好多元的アライメント
- Authors: Mahmoud Srewa, Tianyu Zhao, Salma Elmalaki,
- Abstract要約: 本稿では,歴史的アライメントの報酬に基づいてグループレベルの報酬を動的に重み付けする適応的選好多元的アライメントフレームワークAPPAを提案する。
当社のアプローチでは、適切な優先順位データにアクセスすることなく、適切に整列されたグループを分解することなく、整列したグループを優先順位付けする。
- 参考スコア(独自算出の注目度): 2.840505903487544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) with diverse human preferences requires pluralistic alignment, where a single model must respect the values of multiple distinct groups simultaneously. In federated reinforcement learning from human feedback (FedRLHF), these groups align a shared policy without centralizing preference data, which makes fair reward aggregation essential. Existing aggregation methods exhibit clear trade offs: average based aggregation systematically under aligns worst performing groups, while min aggregation prioritizes worst group performance at the cost of overall alignment. We propose APPA, an Adaptive Preference Pluralistic Alignment framework that dynamically reweights group level rewards based on historical alignment rewards. Our approach prioritizes under aligned groups without degrading well aligned ones, while requiring no access to raw preference data. Integrated into a proximal policy optimization (PPO) based FedRLHF pipeline and evaluated on GLOBALQA and OQA across three model families (Gemma 2 2B, Llama 3.2 3B, Qwen3 0.6B), APPA achieves strong fairness alignment trade offs, improving worst group alignment by up to 28% over average aggregation while maintaining higher overall alignment than min aggregation across most configurations.
- Abstract(参考訳): 大きな言語モデル(LLM)を多種多様な人間の好みで調整するには、複数の異なるグループの値を同時に尊重しなければならない複数のアライメントが必要である。
ヒューマンフィードバック(FedRLHF)からの強化学習において、これらのグループは嗜好データを集中化せずに共有政策を整合させ、公正な報酬アグリゲーションが不可欠である。
既存のアグリゲーション手法は明確なトレードオフを示す: 平均ベースのアグリゲーションは、系統的に、最悪のパフォーマンスのグループを整列させ、一方、minアグリゲーションは、全体的なアグリゲーションのコストで、最悪のグループパフォーマンスを優先する。
本稿では,歴史的アライメントの報酬に基づいてグループレベルの報酬を動的に重み付けする適応的選好多元的アライメントフレームワークAPPAを提案する。
当社のアプローチでは、適切な優先順位データにアクセスすることなく、適切に整列されたグループを分解することなく、整列したグループを優先順位付けする。
PPOに基づくFedRLHFパイプラインに統合され、3つのモデルファミリー(Gemma 2 2B、Llama 3.2 3B、Qwen3 0.6B)にわたるGLOBALQAとOQAで評価され、APPAは強い公正なアライメントのトレードオフを達成し、平均的なアグリゲーションよりも最大28%のグループアライメントを向上し、多くの構成においてミンアグリゲーションよりも高い全体的なアライメントを維持しながら、最悪のグループアライメントを改善する。
関連論文リスト
- FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment [55.97027207627]
Fed PDPO(Federated Personalized Direct Preference Optimization)は、大規模言語モデル(LLM)の優先順位調整のためのパーソナライズされたフレームワークである。
パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。
複数の嗜好データセットの実験では、最先端のパフォーマンスを示し、フェデレーション付きドメイン内およびクロスドメイン設定の平均精度が4.80%向上した。
論文 参考訳(メタデータ) (2026-03-20T08:24:49Z) - Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment [13.085014101959118]
我々は、バッチ統計から有利な推定を分離する新しいアライメントフレームワークであるPersonalized GRPOを紹介する。
我々はP-GRPOを多種多様なタスクで評価し、標準のGRPOよりも高速な収束と高い報酬を達成することを発見した。
論文 参考訳(メタデータ) (2026-02-17T19:00:43Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs [2.840505903487544]
本稿では,大規模言語モデル(LLM)を,連合学習環境における多種多様な人間の嗜好と整合させるという課題に対処する。
本研究では,人間の嗜好に異なるアグリゲーション戦略を用いる場合,アライメント品質と公正性のトレードオフを評価する総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T16:39:32Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness [61.45587642780908]
画像テキスト基礎モデルのパラメータ効率向上のための3段階のアプローチを提案する。
本手法は, マイノリティ標本同定とロバストトレーニングアルゴリズムの2つの重要な要素を改良する。
我々の理論分析は,PPAが少数群の識別を向上し,バランスの取れたグループエラーを最小限に抑えるためにベイズが最適であることを示している。
論文 参考訳(メタデータ) (2025-03-12T15:46:12Z) - Group Robust Preference Optimization in Reward-free RLHF [23.622835830345725]
そこで本研究では,大規模言語モデルと各グループの嗜好を密に整合させる新しいグループロバスト選好最適化法を提案する。
これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。
我々は,最悪のパフォーマンス群の性能向上,グループ間の損失不均衡の低減,確率精度の向上について検討した。
論文 参考訳(メタデータ) (2024-05-30T17:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。