論文の概要: Projection Optimization: A General Framework for Multi-Objective and Multi-Group RLHF
- arxiv url: http://arxiv.org/abs/2502.15145v1
- Date: Fri, 21 Feb 2025 01:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:44.565855
- Title: Projection Optimization: A General Framework for Multi-Objective and Multi-Group RLHF
- Title(参考訳): Projection Optimization: マルチオブジェクトとマルチグループRLHFのための汎用フレームワーク
- Authors: Nuoya Xiong, Aarti Singh,
- Abstract要約: MORLHF(Multi-Objective RLHF)は、目的ごとの嗜好フィードバックを利用し、最適化のための単一の統一目的に集約することで、これらの目標間の最適性を達成することを目的としている。
本稿では,本フレームワークがサブリニアな後悔を実現し,報酬のないアルゴリズムに容易に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 13.612504157832708
- License:
- Abstract: Reinforcement Learning with Human Feedback (RLHF) is a widely used fine-tuning approach that aligns machine learning model, particularly Language Model (LM) with human preferences. There are typically multiple objectives driving the preference, hence humans find it easier to express per-objective comparisons rather than a global preference between two choices. %, e.g. compare two papers on their novelty, clarity, correctness, etc. Multi-Objective RLHF (MORLHF) aims to use per-objective preference feedback and achieve Pareto optimality among these objectives by aggregating them into a single unified objective for optimization. However, nearly all prior works rely on linear aggregation, which rules out policies that favor specific objectives such as the worst one. The only existing approach using non-linear aggregation is computationally expensive due to its reward-based nature and the need for retraining whenever the aggregation parameters change. In this work, we address this limitation by transforming the non-linear aggregation maximization problem into a series of sub-problems. Each sub-problem involves only linear aggregation, making it computationally efficient to solve. We further extend our framework to handle multi-group scenarios, where each group has distinct weights for the objectives. Our method enables achieving consensus or maximizing the aggregated objective across all groups. Theoretically, we demonstrate that our algorithmic framework achieves sublinear regret and can be easily adapted to a reward-free algorithm. Empirically, leveraging our theoretical insights, we propose a nearly training-free algorithm once the optimal policies for individual objectives are obtained.
- Abstract(参考訳): 強化学習とヒューマンフィードバック(Reinforcement Learning with Human Feedback, RLHF)は、機械学習モデル、特に言語モデル(LM)と人間の好みを一致させる、広く使われている微調整アプローチである。
通常、選好を駆動する複数の目的があるため、人間は2つの選択肢のグローバルな選好よりも、目的ごとの比較をより容易に表現できると考えている。
%, egは, 新規性, 明瞭性, 正確性などの2つの論文を比較した。
MORLHF(Multi-Objective RLHF)は、目的ごとの嗜好フィードバックを利用し、最適化のための単一の統一目的に集約することで、これらの目的の中でパレートの最適性を達成することを目的としている。
しかし、ほとんどすべての先行研究は線形集約に依存しており、最悪のもののような特定の目的を優先するポリシーを規定している。
非線形アグリゲーションを用いた唯一の既存のアプローチは、その報酬に基づく性質と、アグリゲーションパラメータが変化するたびに再トレーニングする必要があるため、計算的に高価である。
本研究では、非線形集約最大化問題を一連のサブプロブレムに変換することにより、この制限に対処する。
各サブプロブレムは線形アグリゲーションのみを含み、計算的に解ける。
さらに、各グループが目標に対して異なる重みを持つマルチグループシナリオを扱うために、我々のフレームワークを拡張します。
提案手法は,すべてのグループにまたがって,コンセンサスを達成したり,集約された目的を最大化することができる。
理論的には、我々のアルゴリズムフレームワークがサブ線形後悔を達成し、報酬のないアルゴリズムに容易に適応できることを実証する。
理論的知見を生かして,個別目的に対する最適ポリシーが得られれば,ほぼ訓練のないアルゴリズムを提案する。
関連論文リスト
- Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Intersectional Fairness in Reinforcement Learning with Large State and Constraint Spaces [16.400288624027375]
多くの実世界の環境では、複数の目的を同時に最適化することが重要である。
目的を1つのスカラー報酬関数の状態ベース再重み付けによって定義する多目的最適化問題を考察する。
目的数が指数関数的に大きい場合でも、これらの多目的RL問題を解決するためのオラクル効率のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2025-02-17T14:25:33Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Jacobian Descent for Multi-Objective Optimization [0.6138671548064355]
勾配降下は単目的最適化に限られる。
Jacobian descent (JD) はベクトル値の目的関数のヤコビ行列を用いてパラメータを反復的に更新する。
論文 参考訳(メタデータ) (2024-06-23T22:06:25Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - An Approach to Ordering Objectives and Pareto Efficient Solutions [0.0]
多目的最適化問題の解法は一般に比較や順序付けはできない。
意思決定者はしばしば、スケールした目的を比較することができると信じている。
確率積分変換を用いて問題の目的を全て同じ範囲のスコアにマッピングする手法を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:55:53Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Practical Bayesian Optimization of Objectives with Conditioning
Variables [1.0497128347190048]
ユーザが複数の問題に直面している場合、状態変数に対してそれぞれを条件付きで最適化する必要がある場合を考える。
目的間の類似性は、それぞれの目的を2つの方法で最適化する。
本稿では条件最適化のためのフレームワークであるConBOを提案する。
論文 参考訳(メタデータ) (2020-02-23T22:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。