論文の概要: PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning
- arxiv url: http://arxiv.org/abs/2605.00384v1
- Date: Fri, 01 May 2026 04:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.840924
- Title: PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning
- Title(参考訳): PrefMoE:Mixture-of-Experts Reward Learningを用いたロバスト推論モデリング
- Authors: Ziqin Yuan, Ruiqi Wang, Dezhong Zhao, Baijian Yang, Byung-Cheol Min,
- Abstract要約: 提案するPrefMoEは,厳密な嗜好モデリングのための,エキスパートの混合報酬学習フレームワークである。
PrefMoEは複数の専門的な報酬の専門家を学び、軌道レベルのソフトルーティングを使ってそれらを適応的に組み合わせる。
負荷分散レギュレータは、専門家の崩壊を防止してトレーニングをさらに安定化させる。
- 参考スコア(独自算出の注目度): 14.1606113351064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning offers a scalable alternative to manual reward engineering by learning reward structures from comparative feedback. However, large-scale preference datasets, whether collected from crowdsourced annotators or generated by synthetic teachers, often contain heterogeneous and partially conflicting supervision, including disagreement across annotators and inconsistency within annotators. Existing reward learning methods typically fit a single reward model to such data, forcing it to average incompatible signals and thereby limiting robustness. To solve this, we propose PrefMoE, a mixture-of-experts reward learning framework for robust preference modeling. PrefMoE learns multiple specialized reward experts and uses trajectory-level soft routing to combine them adaptively, enabling the model to capture diverse latent preference patterns under noisy and heterogeneous preference supervision. A load-balancing regularizer further stabilizes training by preventing expert collapse. Across locomotion benchmarks from D4RL and manipulation tasks from MetaWorld, PrefMoE improves preference prediction robustness and leads to more reliable downstream policy learning than strong single-model baselines.
- Abstract(参考訳): 優先度に基づく強化学習は、相対的なフィードバックから報酬構造を学ぶことによって、手動報酬工学に代わるスケーラブルな代替手段を提供する。
しかし、クラウドソーシングアノテータから収集されたものであれ、合成教師によって生成されたものであれ、大規模な選好データセットには、アノテータ間の不一致やアノテータ内の不整合を含む、異質で部分的に矛盾する監督が含まれることが多い。
既存の報酬学習法は、通常、そのようなデータに単一の報酬モデルを適用する。
そこで本稿では,ロバストな嗜好モデリングのための混合専門家報酬学習フレームワークであるPrefMoEを提案する。
PrefMoEは複数の専門的な報酬の専門家を学び、トラジェクトリレベルのソフトルーティングを使ってそれらを適応的に組み合わせる。
負荷分散レギュレータは、専門家の崩壊を防止してトレーニングをさらに安定化させる。
D4RLのローコモーションベンチマークとMetaWorldの操作タスクの他、PrefMoEは好み予測の堅牢性を改善し、強力な単一モデルベースラインよりも信頼性の高い下流ポリシー学習を実現する。
関連論文リスト
- Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。
我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。
より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文 参考訳(メタデータ) (2026-02-17T15:31:32Z) - AdaJudge: Adaptive Multi-Perspective Judging for Reward Modeling [23.81351558826977]
AdaJudgeは、表現とアグリゲーションを共同で適応する統合フレームワークである。
AdaJudgeはまず、リファインメントブロックを通じて、バックボーン表現を差別指向の空間に洗練する。
その後、静的読み込みを動的にルーティングし、エビデンスを組み合わせた適応的なマルチビュープーリングモジュールに置き換える。
論文 参考訳(メタデータ) (2026-01-13T00:37:38Z) - Upcycled and Merged MoE Reward Model for Mitigating Reward Hacking [0.0]
本稿では,RLHF報酬モデルのロバスト性および効率性を向上させるために,MoE報酬モデルとアップサイクルとマージする手法を提案する。
我々の研究は、RLHF報酬モデルのロバスト性および効率性を改善するために、MoE構造をアップサイクルとマージする可能性を強調した。
論文 参考訳(メタデータ) (2025-11-30T04:36:37Z) - Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors [50.131271229165165]
Federated Learning (FL)は、分散機械学習のための有望なフレームワークとして登場した。
ユーザの行動、好み、デバイス特性の相違から生じるデータの異質性は、連合学習にとって重要な課題である。
本稿では,学習過程におけるクライアントベクトルに基づくアダプティブ重み付けを適応的に調整する手法であるAdaptive Weight Aggregation (FedAWA)を提案する。
論文 参考訳(メタデータ) (2025-03-20T04:49:40Z) - Best Policy Learning from Trajectory Preference Feedback [11.896067099790962]
推論ベースの強化学習(PbRL)は、より堅牢な代替手段を提供する。
本稿では, PbRLにおける最適政策識別問題について検討し, 生成モデルの学習後最適化を動機とした。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。