Fugu-MT 論文翻訳(概要): Generalized Preference Optimization: A Unified Approach to Offline Alignment

論文の概要: Generalized Preference Optimization: A Unified Approach to Offline Alignment

arxiv url: http://arxiv.org/abs/2402.05749v1
Date: Thu, 8 Feb 2024 15:33:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 14:28:48.261598
Title: Generalized Preference Optimization: A Unified Approach to Offline Alignment
Title（参考訳）: 一般選好最適化:オフラインアライメントへの統一アプローチ
Authors: Yunhao Tang, Zhaohan Daniel Guo, Zeyu Zheng, Daniele Calandriello, R\'emi Munos, Mark Rowland, Pierre Harvey Richemond, Michal Valko, Bernardo \'Avila Pires, Bilal Piot
Abstract要約: 本稿では,一般的な凸関数のクラスによってパラメータ化されるオフライン損失の族である一般化された選好最適化(GPO)を提案する。 GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含む、優先最適化に関する統一的なビューを可能にする。
参考スコア（独自算出の注目度）: 48.348145099950045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline preference optimization allows fine-tuning large models directly from offline data, and has proved effective in recent alignment practices. We propose generalized preference optimization (GPO), a family of offline losses parameterized by a general class of convex functions. GPO enables a unified view over preference optimization, encompassing existing algorithms such as DPO, IPO and SLiC as special cases, while naturally introducing new variants. The GPO framework also sheds light on how offline algorithms enforce regularization, through the design of the convex function that defines the loss. Our analysis and experiments reveal the connections and subtle differences between the offline regularization and the KL divergence regularization intended by the canonical RLHF formulation. In all, our results present new algorithmic toolkits and empirical insights to alignment practitioners.
Abstract（参考訳）: オフライン優先最適化により、オフラインデータから直接大規模なモデルを微調整することが可能となり、最近のアライメントプラクティスで有効であることが証明された。凸関数の一般クラスによってパラメータ化されるオフライン損失の族である一般化優先最適化(GPO)を提案する。 GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含みながら、優先最適化に関する統一的なビューを可能にします。 gpoフレームワークはまた、損失を定義する凸関数の設計を通じて、オフラインアルゴリズムがレギュライゼーションを強制する方法にも光を当てている。解析および実験により、正準RLHFの定式化を意図したオフライン正則化とKL分散正則化の関連性および微妙な相違が明らかとなった。以上の結果から,新たなアルゴリズムツールキットと経験的洞察が得られた。

関連論文リスト

VAGPO: Vision-augmented Asymmetric Group Preference Optimization for the Routing Problems [2.150410718150006]
ルーティング問題の解法として,視覚拡張型非対称グループ優先最適化(VAGPO)を提案する。 ResNetベースのビジュアルエンコーディングとTransformerベースのシーケンシャルモデリングを活用することで、VAGPOは空間構造と時間的依存関係の両方をキャプチャする。実験結果から,提案したVAGPOは競争力の高いソリューション品質を実現するだけでなく,再学習なしに大規模インスタンスに強力な一般化を示すことがわかった。
論文参考訳（メタデータ） (2025-08-03T14:19:12Z)
Parameter Tracking in Federated Learning with Adaptive Optimization [14.111863825607001]
フェデレートラーニング(FL)では、モデルトレーニングのパフォーマンスはクライアント間のデータ不均一性に強く影響されます。 GT(Gradient Tracking)は、最近、局所モデル更新に修正項を導入することでこの問題を軽減するソリューションとして登場した。現在まで、GTはグラディエント(SGD)ベースのDescentトレーニングしか考慮されていないが、現代のFLフレームワークは収束を改善するために適応性を採用する傾向にある。
論文参考訳（メタデータ） (2025-02-04T21:21:30Z)
Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。 $chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文参考訳（メタデータ） (2024-07-18T11:08:40Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Amortized Proximal Optimization [11.441395750267052]
Amortized Proximal Optimization (APO) は最適化を管理するパラメータのオンラインメタ最適化のためのフレームワークである。 APOが学習率や事前条件行列の構造化にどのように使えるかを示す。学習率のオンライン適応と、回帰、画像再構成、画像分類、自然言語翻訳タスクのための構造化プレコンディショニングを実証的にテストした。
論文参考訳（メタデータ） (2022-02-28T20:50:48Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文参考訳（メタデータ） (2020-10-20T23:25:42Z)
Nonmyopic Gaussian Process Optimization with Macro-Actions [13.847308344546171]
本稿では,非明視適応ガウス過程最適化(GPO)に対する多段階的アプローチを提案する。マクロアクションの概念を利用して、より多くの予算に対応するために、さらなるルックアヘッドまでスケールアップする。我々は,エプシロン-マクロ-GPOポリシーとその時変を,人工的および実世界のデータセットを用いたBOデータセットで実証的に評価した。
論文参考訳（メタデータ） (2020-02-22T09:56:20Z)
Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文参考訳（メタデータ） (2020-02-13T05:42:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。