Fugu-MT 論文翻訳(概要): Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling

論文の概要: Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling

arxiv url: http://arxiv.org/abs/2606.04284v1
Date: Tue, 02 Jun 2026 23:19:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.425236
Title: Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling
Title（参考訳）: Sparse Mixture-of-Experts Reward Models Learns Learns Interpretable and Specialized Experts for Personalized Preference Modeling
Authors: Yifan Wang, Jinyi Mu, Mayank Jobanputra, Yu Wang, Ji-Ung Lee, Soyoung Oh, Isabel Valera, Vera Demberg,
Abstract要約: 本稿では、スパースルーティングとエキスパートの多様性を促進するため、スパース・ミックス・オブ・エクササイズ(MoE)報酬モデルを提案する。 MoEは、制御された実世界の実験を通して、解釈可能なルーティングパターンと専門の専門家を学ぶ。また、テストタイムのパーソナライズも改善され、専門家の体重に対する後適応シフトは、モデルがパーソナライズされた好みにどのように適応するかを分析するための質的なレンズを提供する。
参考スコア（独自算出の注目度）: 21.9382093355334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Preference modeling plays a central role in reinforcement learning from human feedback (RLHF), enabling large language models (LLMs) to align with human values. However, most existing approaches assume a universal reward function, neglecting the diversity and heterogeneity of human preferences. To address this limitation without additional annotation costs, recent work has proposed learning multiple preference components from binary data and combining them to model individual preferences. Nevertheless, these components often fail to capture coherent and disentangled patterns, limiting their interpretability and effectiveness for personalization. In this work, we propose a sparse Mixture-of-Experts (MoE) reward model that encourages sparse routing and expert diversity during training on binary preference data. Across controlled and real-world experiments, sparse MoE learns interpretable routing patterns and specialized experts. It also improves test-time personalization, and post-adaptation shifts in expert weights provide a qualitative lens for analyzing how the model adapts to personalized preferences.
Abstract（参考訳）: 優先度モデリングは、人間のフィードバック(RLHF)からの強化学習において中心的な役割を担い、大きな言語モデル(LLM)が人間の価値観と一致できるようにする。しかし、既存のほとんどのアプローチは、人間の嗜好の多様性と不均一性を無視し、普遍的な報酬関数を前提としている。追加のアノテーションコストを伴わずにこの制限に対処するため、近年の研究では、バイナリデータから複数の好みコンポーネントを学習し、個々の好みをモデル化するためにそれらを組み合わせることを提案する。それでもこれらのコンポーネントは、一貫性のあるパターンと非絡み合いのパターンを捉えず、パーソナライズのための解釈可能性と有効性を制限する。本研究では,二分選好データを用いたトレーニングにおいて,スパース・ルーティングとエキスパートの多様性を促進するために,スパース・ミックス・オブ・エクササイズ(MoE)報酬モデルを提案する。コントロールされた実世界の実験全体で、スパースMoEは解釈可能なルーティングパターンと専門の専門家を学ぶ。テストタイムのパーソナライゼーションも改善され、専門家の重み付けによる後適応シフトは、モデルがパーソナライズされた好みにどのように適応するかを分析するための質的なレンズを提供する。

関連論文リスト

PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning [14.1606113351064]
提案するPrefMoEは,厳密な嗜好モデリングのための,エキスパートの混合報酬学習フレームワークである。 PrefMoEは複数の専門的な報酬の専門家を学び、軌道レベルのソフトルーティングを使ってそれらを適応的に組み合わせる。負荷分散レギュレータは、専門家の崩壊を防止してトレーニングをさらに安定化させる。
論文参考訳（メタデータ） (2026-05-01T04:06:44Z)
MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning [28.478879569025583]
大規模な二元選好データセットを活用することにより、パーソナライズされた選好学習を強化する2段階フレームワークであるMiCRoを紹介する。最初の段階では、MiCRoは様々な人間の嗜好を捉えるためにコンテキスト対応の混合モデリング手法を導入している。第2段階では、MiCRoは、特定のコンテキストに基づいて混合重みを動的に適応してあいまいさを解決するオンラインルーティング戦略を統合する。
論文参考訳（メタデータ） (2025-05-30T17:44:28Z)
Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文参考訳（メタデータ） (2025-05-13T21:50:03Z)
Capturing Individual Human Preferences with Reward Features [47.43999785878563]
個人の好みを一般報酬特徴の線形結合として捉えることができることを示す。このような特徴を学習し、その後、報酬モデルを特定の個人に迅速に適応させる方法を示します。提案するアーキテクチャを非適応型報酬モデルと適応型報酬モデルと比較し,大規模言語モデルを用いた実験を行った。
論文参考訳（メタデータ） (2025-03-21T17:39:33Z)
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-02T14:50:25Z)
ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文参考訳（メタデータ） (2024-10-21T14:02:40Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。