論文の概要: Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization
- arxiv url: http://arxiv.org/abs/2604.13175v1
- Date: Tue, 14 Apr 2026 18:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.238648
- Title: Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization
- Title(参考訳): Smooth Tchebysheff ScalarizationによるPareto-Optimal Offline Reinforcement Learning
- Authors: Aadyot Bhatnagar, Peter Mørch Groth, Ali Madani,
- Abstract要約: 大規模な言語モデルは、小さなラベル付きデータセット上のオフライン強化学習(RL)を通じて、人間の好みに合わせることができる。
我々はこの手法を用いてSTOMP(Smooth Tchebysheff of Multi-Objective Preferences)を導出する。
STOMPは,9つの設定のうち8つの設定において,非政治的および生成的評価の両面から最も高い超対象を達成している。
- 参考スコア(独自算出の注目度): 2.5513673603819886
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models can be aligned with human preferences through offline reinforcement learning (RL) on small labeled datasets. While single-objective alignment is well-studied, many real-world applications demand the simultaneous optimization of multiple conflicting rewards, e.g. optimizing both catalytic activity and specificity in protein engineering, or helpfulness and harmlessness for chatbots. Prior work has largely relied on linear reward scalarization, but this approach provably fails to recover non-convex regions of the Pareto front. In this paper, instead of scalarizing the rewards directly, we frame multi-objective RL itself as an optimization problem to be scalarized via smooth Tchebysheff scalarization, a recent technique that overcomes the shortcomings of linear scalarization. We use this formulation to derive Smooth Tchebysheff Optimization of Multi-Objective Preferences (STOMP), a novel offline RL algorithm that extends direct preference optimization to the multi-objective setting in a principled way by standardizing the individual rewards based on their observed distributions. We empirically validate STOMP on a range of protein engineering tasks by aligning three autoregressive protein language models on three laboratory datasets of protein fitness. Compared to state-of-the-art baselines, STOMP achieves the highest hypervolumes in eight of nine settings according to both offline off-policy and generative evaluations. We thus demonstrate that STOMP is a powerful, robust multi-objective alignment algorithm that can meaningfully improve post-trained models for multi-attribute protein optimization and beyond.
- Abstract(参考訳): 大規模な言語モデルは、小さなラベル付きデータセット上のオフライン強化学習(RL)を通じて、人間の好みに合わせることができる。
単目的アライメントはよく研究されているが、現実の多くのアプリケーションは複数の競合する報酬を同時に最適化する必要がある。
以前の研究は線形報酬スカラー化に大きく依存していたが、このアプローチはパレートフロントの非凸領域を確実に回収することができない。
本稿では、報酬を直接スキャラライズする代わりに、線形スキャラライゼーションの欠点を克服する最近の技術であるスキャラライゼーションによってスキャラライズされる最適化問題として、多目的RL自体をモデル化する。
この定式化は、STOMP(Smooth Tchebysheff Optimization of Multi-Objective Preferences)を導出するために用いられる。
STOMPは、タンパク質適合性の3つの実験室データセットに3つの自己回帰的タンパク質言語モデルを整列させることにより、様々なタンパク質工学タスクにおいて実証的に検証する。
最先端のベースラインと比較して、STOMPはオフラインのオフポリシーと生成的評価の両方に応じて、9つの設定のうち8つの設定のうち8つの最も高いハイパーボリュームを達成している。
そこで我々は,STOMPが強力で頑健な多目的アライメントアルゴリズムであることを示す。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting [48.87957020168614]
マルチリワード学習における以前の研究は、通常、固定重み付き線形スカラー化を使用しており、効果的なオンライン学習を捉えることができない。
目的整合性を高めるための2つのアプローチ、オンライン学習のためのもの、宇宙探査のためのものを紹介する。
論文 参考訳(メタデータ) (2025-09-14T21:56:35Z) - Linear Preference Optimization: Decoupled Gradient Control via Absolute Regularization [13.97375970293678]
DPO(Direct Preference Optimization)は、その単純さと訓練安定性から、オフライン優先最適化アルゴリズムとして広く使われている。
3つの重要なイノベーションを特徴とする新しいアライメントフレームワークであるLinear Preference Optimization (LPO)を提案する。
まず,対数シグモイド関数を絶対差分損失に置き換え,最適化力学を分離することで勾配デカップリングを導入する。
第2に、選択された応答品質を維持するために、オフセット制約と正の正則化項を組み合わせることで安定性を向上させる。
第3に、直感的な推定を伴う勾配分離と、その相対確率の降下を線形に制御する調整可能な係数を用いて、制御可能な拒絶抑制を実装した。
論文 参考訳(メタデータ) (2025-08-20T10:17:29Z) - Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文 参考訳(メタデータ) (2025-05-16T05:58:26Z) - Projection Optimization: A General Framework for Multi-Objective and Multi-Group RLHF [13.612504157832708]
強化学習とヒューマンフィードバック(Reinforcement Learning with Human Feedback, RLHF)は、機械学習モデルと人間の好みを一致させる、広く使われている微調整アプローチである。
本研究では,非線形アグリゲーション問題を一連のサブプロブレムに変換し,フレームワークを多群シナリオに拡張する。
我々は,アルゴリズムフレームワークがサブ線形後悔を実現し,報酬のないアルゴリズムに容易に適応できることを実証した。
論文 参考訳(メタデータ) (2025-02-21T01:56:52Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。