論文の概要: Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models
- arxiv url: http://arxiv.org/abs/2503.03460v1
- Date: Wed, 05 Mar 2025 12:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:37.981882
- Title: Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models
- Title(参考訳): 大規模言語モデルのゼロ階選好最適化をインフォームするポリシ・リワード対話の可視化
- Authors: Alessio Galatolo, Zhenbang Dai, Katie Winkle, Meriem Beloucif,
- Abstract要約: 勾配の代わりに関数評価を用いたゼロ次最適化(ZO)は、メモリ使用量を減らすが、高次元モデルでは緩やかな収束に悩まされる。
LLMの優先度最適化のために設計された新しいZOアルゴリズムZOPrOを紹介する。
本手法は,一階法に匹敵する収束時間を実現しつつ,報酬信号の連続的な向上を実証する。
- 参考スコア(独自算出の注目度): 0.36326779753373206
- License:
- Abstract: Fine-tuning LLMs with first-order methods like back-propagation is computationally intensive. Zeroth-Order (ZO) optimisation, using function evaluations instead of gradients, reduces memory usage but suffers from slow convergence in high-dimensional models. As a result, ZO research in LLMs has mostly focused on classification, overlooking more complex generative tasks. In this paper, we introduce ZOPrO, a novel ZO algorithm designed for \textit{Preference Optimisation} in LLMs. We begin by analysing the interplay between policy and reward models during traditional (first-order) Preference Optimisation, uncovering patterns in their relative updates. Guided by these insights, we adapt Simultaneous Perturbation Stochastic Approximation (SPSA) with a targeted sampling strategy to accelerate convergence. Through experiments on summarisation, machine translation, and conversational assistants, we demonstrate that our method consistently enhances reward signals while achieving convergence times comparable to first-order methods. While it falls short of some state-of-the-art methods, our work is the first to apply Zeroth-Order methods to Preference Optimisation in LLMs, going beyond classification tasks and paving the way for a largely unexplored research direction. Code and visualisations are available at https://github.com/alessioGalatolo/VisZOPrO
- Abstract(参考訳): バックプロパゲーションのような一階法の微調整LDMは計算集約的である。
勾配の代わりに関数評価を用いたゼロ次最適化(ZO)は、メモリ使用量を減らすが、高次元モデルでは緩やかな収束に悩まされる。
その結果、LLMのZO研究は主に分類に焦点を当て、より複雑な生成タスクを見下ろしている。
本稿では LLM における \textit{Preference Optimisation} のための新しいZOアルゴリズム ZOPrO を紹介する。
まず、従来の(一階の)優先度最適化におけるポリシーと報酬モデル間の相互作用を分析し、相対的な更新のパターンを明らかにすることから始めます。
これらの知見に導かれて、同時摂動確率近似(SPSA)を目標サンプリング戦略で適用し、収束を加速する。
我々は,要約,機械翻訳,会話アシスタントの実験を通じて,一階法に匹敵する収束時間を達成しつつ,報奨信号の連続的向上を実証した。
最先端の手法には見当たらないが、我々の研究は、LLMにおける選好最適化にゼロ階法を初めて適用し、分類タスクを超えて、ほとんど探索されていない研究方向に向かう。
コードと視覚化はhttps://github.com/alessioGalatolo/VisZOPrOで公開されている。
関連論文リスト
- Meta-Learning Objectives for Preference Optimization [39.15940594751445]
より単純なベンチマークにおいて、選好最適化アルゴリズムの有効性についての洞察を得ることが可能であることを示す。
我々はミラー優先最適化(MPO)と呼ばれるミラー降下に基づく新しいPOアルゴリズム群を提案する。
論文 参考訳(メタデータ) (2024-11-10T19:11:48Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。