論文の概要: PIPA: Preference Alignment as Prior-Informed Statistical Estimation
- arxiv url: http://arxiv.org/abs/2502.05773v1
- Date: Sun, 09 Feb 2025 04:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:36:20.641818
- Title: PIPA: Preference Alignment as Prior-Informed Statistical Estimation
- Title(参考訳): PIPA:事前インフォームド統計量推定のための選好アライメント
- Authors: Junbo Li, Zhangyang Wang, Qiang Liu,
- Abstract要約: 本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
- 参考スコア(独自算出の注目度): 57.24096291517857
- License:
- Abstract: Offline preference alignment for language models such as Direct Preference Optimization (DPO) is favored for its effectiveness and simplicity, eliminating the need for costly reinforcement learning. Various offline algorithms have been developed for different data settings, yet they lack a unified understanding. In this study, we introduce Pior-Informed Preference Alignment (PIPA), a unified, RL-free probabilistic framework that formulates language model preference alignment as a Maximum Likelihood Estimation (MLE) problem with prior constraints. This method effectively accommodates both paired and unpaired data, as well as answer and step-level annotations. We illustrate that DPO and KTO are special cases with different prior constraints within our framework. By integrating different types of prior information, we developed two variations of PIPA: PIPA-M and PIPA-N. Both algorithms demonstrate a $3\sim10\%$ performance enhancement on the GSM8K and MATH benchmarks across all configurations, achieving these gains without additional training or computational costs compared to existing algorithms.
- Abstract(参考訳): 直接選好最適化(DPO)のような言語モデルのオフライン選好アライメントは、その効率性と単純さに好まれ、コストのかかる強化学習の必要性を排除している。
さまざまなオフラインアルゴリズムがさまざまなデータ設定のために開発されているが、統一された理解がない。
本研究では,LLを含まない統一的確率的フレームワークであるPior-Informed Preference Alignment (PIPA)を導入する。
この方法は、ペアデータとアンペアデータの両方を効果的に扱えるし、回答やステップレベルのアノテーションも利用できる。
DPOとKTOは、フレームワーク内で異なる事前制約を持つ特別なケースであることを示す。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
どちらのアルゴリズムも、GSM8KとMATHのベンチマークで、GSM8KとMATHのベンチマークのパフォーマンスを3ドル10セントで向上させ、既存のアルゴリズムと比較してトレーニングや計算コストを増すことなく、これらのゲインを達成している。
関連論文リスト
- Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Noise Contrastive Alignment of Language Models with Explicit Rewards [32.90586853892559]
我々は、NCEを利用して、スカラー評価で明示的に注釈付けされた報酬データセットを扱う際のギャップを埋める、LMアライメントのための一般的なフレームワークを提案する。
我々のフレームワークは2つの並列アルゴリズム、NAAとInfoNCAで構成されており、どちらも報酬データと嗜好データからLMポリシーを直接抽出することができる。
NCA と InfoNCA を比較することで,DPO/InfoNCA の減少傾向は,反応の相違による相対可能性の調整に焦点が当てられていることが示される。
論文 参考訳(メタデータ) (2024-02-08T02:58:47Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Fair principal component analysis (PCA): minorization-maximization
algorithms for Fair PCA, Fair Robust PCA and Fair Sparse PCA [6.974999794070285]
公平なPCA(FPCA)問題を解決するために,新しい反復アルゴリズムを提案する。
提案アルゴリズムはアルゴリズムの反復ごとに厳密であることが証明された半直交制約の緩和に依存する。
本稿では,提案手法の性能を,合成データセットと実生活データセットの2つの最先端手法と比較する。
論文 参考訳(メタデータ) (2023-05-10T08:14:32Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。