Fugu-MT 論文翻訳(概要): Principled RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation

論文の概要: Principled RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation

arxiv url: http://arxiv.org/abs/2405.00254v1
Date: Tue, 30 Apr 2024 23:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 16:47:02.566235
Title: Principled RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation
Title（参考訳）: パーソナライズと選好アグリゲーションによる不均一フィードバックからのRLHFの原理
Authors: Chanwoo Park, Mingyang Liu, Kaiqing Zhang, Asuman Ozdaglar,
Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
参考スコア（独自算出の注目度）: 23.337350061258903
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reinforcement learning from human feedback (RLHF) has been an effective technique for aligning AI systems with human values, with remarkable successes in fine-tuning large-language models recently. Most existing RLHF paradigms make the underlying assumption that human preferences are relatively homogeneous, and can be encoded by a single reward model. In this paper, we focus on addressing the issues due to the inherent heterogeneity in human preferences, as well as their potential strategic behavior in providing feedback. Specifically, we propose two frameworks to address heterogeneous human feedback in principled ways: personalization-based one and aggregation-based one. For the former, we propose two approaches based on representation learning and clustering, respectively, for learning multiple reward models that trades off the bias (due to preference heterogeneity) and variance (due to the use of fewer data for learning each model by personalization). We then establish sample complexity guarantees for both approaches. For the latter, we aim to adhere to the single-model framework, as already deployed in the current RLHF paradigm, by carefully aggregating diverse and truthful preferences from humans. We propose two approaches based on reward and preference aggregation, respectively: the former utilizes both utilitarianism and Leximin approaches to aggregate individual reward models, with sample complexity guarantees; the latter directly aggregates the human feedback in the form of probabilistic opinions. Under the probabilistic-opinion-feedback model, we also develop an approach to handle strategic human labelers who may bias and manipulate the aggregated preferences with untruthful feedback. Based on the ideas in mechanism design, our approach ensures truthful preference reporting, with the induced aggregation rule maximizing social welfare functions.
Abstract（参考訳）: 人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法であり、近年、微調整された大規模言語モデルで顕著な成功を収めている。既存のRLHFパラダイムの多くは、人間の嗜好は比較的均質であり、単一の報酬モデルで符号化できるという前提を定めている。本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。具体的には、パーソナライズベース1とアグリゲーションベース1の2つの手法を原則として、異種人のフィードバックに対処する枠組みを提案する。前者に対しては,表現学習とクラスタリングに基づく2つのアプローチを提案し,偏差(嗜好の不均一性による)と分散(パーソナライズによる各モデルの学習に使用するデータが少ないため)をトレードオフする複数の報酬モデルを学習する。次に、両方のアプローチに対して、サンプルの複雑性を保証する。後者については,人間からの多様で誠実な嗜好を注意深く集約することにより,既存のRLHFパラダイムにすでに導入されている単一モデルフレームワークの遵守を目指す。報奨と選好のアグリゲーションに基づく2つのアプローチを提案する。前者は実用主義とレキシミンの両アプローチを用いて、個々の報酬モデルを集約し、複雑さの保証をサンプルとし、後者は確率論的意見の形で直接人間のフィードバックを集約する。また,確率-オピニオン-フィードバックモデルの下では,不合理なフィードバックで集約された嗜好をバイアスし操作する戦略的人間ラベル作成者を扱うアプローチも開発している。本手法は,メカニズム設計の考え方に基づいて,社会福祉機能を最大化する誘導集約規則を用いて,真に好意的な報告を確実にする。

関連論文リスト

Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-17T15:00:40Z)
Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
A Shared Low-Rank Adaptation Approach to Personalized RLHF [12.874322231672009]
RLHF(Reinforcement Learning from Human Feedback)は、人工知能システムと人間の価値を整合させる重要な手法として登場した。既存のRLHFフレームワークは、人間の嗜好が比較的均一であり、単一の統一報酬モデルによって捉えられると仮定することが多い。本稿では、ローランド適応(LoRA)をパーソナライズしたRLHFフレームワークに導入する。
論文参考訳（メタデータ） (2025-03-24T23:01:08Z)
PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。 PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文参考訳（メタデータ） (2025-02-06T18:09:00Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-24T20:04:15Z)
General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文参考訳（メタデータ） (2024-09-16T10:54:04Z)
Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文参考訳（メタデータ） (2024-08-19T15:18:30Z)
Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-23T21:25:20Z)
Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文参考訳（メタデータ） (2024-03-08T03:05:11Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Aligning Language Models with Human Preferences via a Bayesian Approach [11.984246334043673]
人間中心の自然言語生成(NLG)システムを推し進めるためには、NLGモデルと人間の嗜好の整合性を確保することが不可欠である。本稿では,人選好における不一致の分布を選好モデルのトレーニングとして考慮するために,ベイズ的枠組みを用いた新しいアプローチを提案する。自動評価と人的評価の両方において,従来のSOTAモデルよりずっと上回っている。
論文参考訳（メタデータ） (2023-10-09T15:15:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。