Fugu-MT 論文翻訳(概要): Adaptive Preference Scaling for Reinforcement Learning with Human Feedback

論文の概要: Adaptive Preference Scaling for Reinforcement Learning with Human Feedback

arxiv url: http://arxiv.org/abs/2406.02764v1
Date: Tue, 4 Jun 2024 20:33:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 22:47:37.865637
Title: Adaptive Preference Scaling for Reinforcement Learning with Human Feedback
Title（参考訳）: 人間のフィードバックによる強化学習のための適応的選好スケーリング
Authors: Ilgee Hong, Zichong Li, Alexander Bukharin, Yixiao Li, Haoming Jiang, Tianbao Yang, Tuo Zhao,
Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
参考スコア（独自算出の注目度）: 103.36048042664768
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning from human feedback (RLHF) is a prevalent approach to align AI systems with human values by learning rewards from human preference data. Due to various reasons, however, such data typically takes the form of rankings over pairs of trajectory segments, which fails to capture the varying strengths of preferences across different pairs. In this paper, we propose a novel adaptive preference loss, underpinned by distributionally robust optimization (DRO), designed to address this uncertainty in preference strength. By incorporating an adaptive scaling parameter into the loss for each pair, our method increases the flexibility of the reward function. Specifically, it assigns small scaling parameters to pairs with ambiguous preferences, leading to more comparable rewards, and large scaling parameters to those with clear preferences for more distinct rewards. Computationally, our proposed loss function is strictly convex and univariate with respect to each scaling parameter, enabling its efficient optimization through a simple second-order algorithm. Our method is versatile and can be readily adapted to various preference optimization frameworks, including direct preference optimization (DPO). Our experiments with robotic control and natural language generation with large language models (LLMs) show that our method not only improves policy performance but also aligns reward function selection more closely with policy optimization, simplifying the hyperparameter tuning process.
Abstract（参考訳）: 人間からのフィードバックからの強化学習(RLHF)は、人間の嗜好データから報酬を学習することで、AIシステムを人間の価値と整合させる一般的なアプローチである。しかし、様々な理由により、これらのデータは典型的には軌道セグメントのペアよりもランク付けの形式をとるが、これは異なるペア間での好みの強さの変化を捉えるのに失敗する。本稿では,この不確実性に対応するために,分散ロバスト最適化 (DRO) を基盤とした適応的選好損失を提案する。適応的スケーリングパラメータを各ペアの損失に組み込むことで、報奨関数の柔軟性を高めることができる。具体的には、小さなスケーリングパラメータをあいまいな選好を持つペアに割り当て、より同等の報奨と大きなスケーリングパラメータを、より明確な選好を持つ人たちに与えます。計算により,提案した損失関数は,各スケーリングパラメータに対して厳密に凸かつ一変数化され,単純な2次アルゴリズムによる効率的な最適化が可能となる。提案手法は汎用性が高く,直接選好最適化(DPO)など,さまざまな選好最適化フレームワークに容易に適用可能である。大規模言語モデル(LLM)を用いたロボット制御と自然言語生成による実験により,提案手法は政策性能の向上だけでなく,報酬関数の選択をポリシー最適化と密接に整合させ,ハイパーパラメータチューニングプロセスを簡素化することを示した。

関連論文リスト

Latent Embedding Adaptation for Human Preference Alignment in Diffusion Planners [16.863492060519157]
本研究は,自動意思決定システムにおける軌跡のパーソナライズという課題に対処する。本研究では,個人の好みに迅速に適応できる資源効率の高い手法を提案する。
論文参考訳（メタデータ） (2025-03-24T05:11:58Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文参考訳（メタデータ） (2024-09-10T17:54:28Z)
Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。 DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2024-05-28T08:35:48Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
End-to-End Learning for Fair Multiobjective Optimization Under Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文参考訳（メタデータ） (2024-02-12T16:33:35Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Online Sensitivity Optimization in Differentially Private Learning [8.12606646175019]
クリッピング閾値を動的に最適化する新しい手法を提案する。我々は、このしきい値を学習可能なパラメータとして扱い、しきい値とコスト関数のクリーンな関係を確立する。提案手法は, 多様なデータセット, タスク, モデル次元, プライバシレベルにまたがる代替的かつ適応的な戦略に対して, 徹底的に評価される。
論文参考訳（メタデータ） (2023-10-02T00:30:49Z)
Hyperparameter Optimization through Neural Network Partitioning [11.6941692990626]
本稿では,ニューラルネットワークにおけるハイパーパラメータの最適化をシンプルかつ効率的に行う方法を提案する。本手法では,トレーニングデータとニューラルネットワークモデルをデータシャードとパラメータ分割に$K$に分割する。我々は、この目的を単一のトレーニングランで様々なハイパーパラメータを最適化するために適用できることを実証した。
論文参考訳（メタデータ） (2023-04-28T11:24:41Z)
Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文参考訳（メタデータ） (2022-05-26T12:51:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。