論文の概要: SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin
- arxiv url: http://arxiv.org/abs/2502.13516v1
- Date: Wed, 19 Feb 2025 08:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:00.746727
- Title: SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin
- Title(参考訳): SPPD:動的バリューマージンを用いたプロセス優先学習による自己学習
- Authors: Hao Yi, Qingyang Li, Yulan Hu, Fuzheng Zhang, Di Zhang, Yong Liu,
- Abstract要約: 我々はtextbfDynamic value margin (SPPD) を用いた textbfProcess textbfPreference Learning を統合した textbfSelf-training フレームワークを提案する。
7Bスケールモデルの実験は、ドメイン内およびドメイン外の数学ベンチマークで優れた性能を示す。
- 参考スコア(独自算出の注目度): 16.346540681903804
- License:
- Abstract: Recently, enhancing the numerical and logical reasoning capability of Large Language Models (LLMs) has emerged as a research hotspot. Existing methods face several limitations: inference-phase techniques (e.g., Chain of Thoughts) rely on prompt selection and the pretrained knowledge; sentence-level Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) struggle with step-wise mathematical correctness and depend on stronger models distillation or human annotations; while Reinforcement Learning (RL) approaches incur high GPU memory costs and unstable training. To address these, we propose \textbf{S}elf-training framework integrating \textbf{P}rocess \textbf{P}reference learning using \textbf{D}ynamic value margin (SPPD). SPPD leverages a process-based Markov Decision Process (MDP) and Bellman optimality equation to derive \textbf{dynamic value margin} on step-level preference optimization, which employs tree-based self-sampling on model responses \textbf{without any distillation} from other models. Furthermore, we theoretically prove that SPPD is \textbf{equivalent to on-policy policy gradient methods} under reward constraints. Experiments on 7B-scale models demonstrate superior performance across in-domain and out-domain mathematical benchmarks. We open-source our code at \href{https://anonymous.4open.science/r/SSDPO-D-DCDD}{https://anonymous.4open.science/r/SPPD-DCDD}.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の数値的および論理的推論能力の向上が研究ホットスポットとして浮上している。
既存の手法はいくつかの制限に直面している: 推論フェーズ技術(例えば、思考の連鎖)は、迅速な選択と事前訓練された知識に依存している; 文レベルの監督された微調整(SFT)と直接選好最適化(DPO)は、ステップワイズな数学的正しさに苦しみ、より強いモデルの蒸留や人間のアノテーションに依存している; 強化学習(RL)は高いGPUメモリコストと不安定なトレーニングにアプローチしている。
これらの問題に対処するために, \textbf{D}ynamic value margin (SPPD) を用いて, \textbf{P}rocess \textbf{P}reference learning を統合した \textbf{S}elf-training frameworkを提案する。
SPPDはプロセスベースのマルコフ決定プロセス(MDP)とベルマン最適性方程式を利用して、ステップレベルの選好最適化で \textbf{dynamic value margin} を導出する。
さらに,SPPDが報酬制約の下での政治方針勾配法と等価であることを理論的に証明する。
7Bスケールモデルの実験は、ドメイン内およびドメイン外の数学ベンチマークで優れた性能を示す。
当社のコードをオープンソースとして公開しているのは,‘href{https://anonymous.4open.science/r/SSDPO-D-DCDD}{https://anonymous.4open.science/r/SPPD-DCDD}’です。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
マルチステップ優先最適化(MPO)は、自然なアクター批判フレームワークciteprakhlin2013online,joulani17a上に構築されている。
我々はOMPOが$mathcalO(epsilon-1)$ポリシー更新を必要とし、$epsilon$-approximate Nash平衡に収束することを示した。
また,本手法がマルチターン会話データセットと数理推論データセットに与える影響についても検証した。
論文 参考訳(メタデータ) (2025-02-18T09:33:48Z) - A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Efficient Training of Neural Stochastic Differential Equations by Matching Finite Dimensional Distributions [3.889230974713832]
連続マルコフ過程を比較するための新しいスコアリングルールを開発する。
このスコアリングルールにより、シグネチャカーネルに関連する計算オーバーヘッドを回避できます。
計算効率と生成品質の両面において,FDMが既存の手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-04T23:26:38Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Decentralized Directed Collaboration for Personalized Federated Learning [39.29794569421094]
我々は分散トレーニングモデル計算を行う分散パーソナライズドラーニング(DPFL)に集中する。
我々は, textbfDecentralized textbfFederated textbfPartial textbfGradient textbfPedGP を組み込んだ協調型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T06:52:19Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - OpBoost: A Vertical Federated Tree Boosting Framework Based on
Order-Preserving Desensitization [26.386265547513887]
Vertical Federated Learning(FL)は、同じデータサンプルの非重複属性を持つユーザが、生データを共有することなく、共同でモデルをトレーニングできる新しいパラダイムである。
最近の研究は、トレーニングプロセスやトレーニングされたモデルからプライバシーが漏洩するのを防ぐのに、まだ不十分であることを示しています。
本稿では,垂直FL下でのプライバシー保護木増進アルゴリズムの研究に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-04T02:21:18Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。