論文の概要: Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.17131v2
- Date: Wed, 11 Jun 2025 05:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:42.957328
- Title: Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models
- Title(参考訳): セルフステアリング最適化:大規模言語モデルに対する自律的選好最適化
- Authors: Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Ben He, Le Sun, Jingren Zhou, Junyang Lin,
- Abstract要約: 本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 79.84205827056907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key to effective alignment lies in high-quality preference data. Recent research has focused on automated alignment, which involves developing alignment systems with minimal human intervention. However, prior research has predominantly focused on developing data generation methods, while insufficient attention has been paid to quality control mechanisms, which often produce inaccurate and unhelpful data, leading to unpredictable benefits during iterative optimization. In this paper, we present Self-Steering Optimization ($SSO$), an algorithm that autonomously generates high-quality preference data, eliminating manual annotation requirements. $SSO$ employs a specialized optimization objective to build a data generator from the policy model itself, which is used to produce accurate and on-policy data. We demonstrate $SSO$'s effectiveness through comprehensive experiments on two series of models: Llama 3 and Qwen 2. Our evaluation across diverse benchmarks shows that $SSO$ consistently outperforms baselines in human preference alignment and reward optimization. Further analysis validates $SSO$ as a scalable framework for preference optimization, benefiting the advancement in automated alignment techniques.
- Abstract(参考訳): 効果的なアライメントの鍵は、高品質な嗜好データにある。
近年の研究は、人間の介入を最小限に抑えたアライメントシステムの開発を含む、自動アライメントに焦点を当てている。
しかし、以前の研究では主にデータ生成手法の開発に焦点が当てられていたが、品質管理機構に十分な注意が払われておらず、しばしば不正確で不確実なデータを生成するため、反復最適化において予測不可能な利点を生んでいる。
本稿では,高品質な嗜好データを自動生成するアルゴリズムであるセルフステアリング最適化(SSO$)について述べる。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
Llama 3 と Qwen 2 の2つのモデルに対する総合的な実験を通じて、SSO$ の有効性を実証する。
様々なベンチマークで評価したところ、$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っている。
さらなる分析は、自動アライメント技術の進歩の恩恵を受けながら、優先順位最適化のためのスケーラブルなフレームワークとして$SSO$を検証する。
関連論文リスト
- SGPO: Self-Generated Preference Optimization based on Self-Improver [6.528083376369728]
大規模言語モデル(LLM)は、実用的で信頼性の高いデプロイメントのために人間の好みに合わせている必要がある。
SGPO(Self-Generated Preference Optimization)を提案する。
改善者は、ポリシーモデルの直接選好最適化(DPO)のための自己生成選好データに対するポリシーモデルからの応答を洗練する。
AlpacaEval 2.0 と Arena-Hard の実験結果から,提案した SGPO は DPO とベースライン自己改善法を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-27T08:55:40Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
この設定で PbRL に関する最初の理論的保証を提供し、単純ベイズ的後悔の上限を確立する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。
TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。
実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-31T05:37:01Z) - Preference Consistency Matters: Enhancing Preference Learning in Language Models with Automated Self-Curation of Training Corpora [4.008122785948581]
本稿では,アノテーション付きデータセットを直接トレーニングしたプロキシモデルを活用することで,前処理を行うセルフキュレーション手法を提案する。
本手法は、一貫性のあるアノテーションを自動的に検出し、選択することで、好みの学習を強化する。
論文 参考訳(メタデータ) (2024-08-23T02:27:14Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data [16.995406965407003]
本稿では,ロバスト$phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーアルゴリズムを提案する。
我々はまた、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学ぶために、$phi$-regularized reinforcement learning frameworkを導入した。
論文 参考訳(メタデータ) (2024-05-08T23:52:37Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - From Function to Distribution Modeling: A PAC-Generative Approach to
Offline Optimization [30.689032197123755]
本稿では、オフラインデータ例の集合を除いて目的関数が不明なオフライン最適化の問題について考察する。
未知の目的関数を学習して最適化するのではなく、より直感的で直接的な視点で、最適化は生成モデルからサンプリングするプロセスと考えることができる。
論文 参考訳(メタデータ) (2024-01-04T01:32:50Z) - Optimizer's Information Criterion: Dissecting and Correcting Bias in Data-Driven Optimization [16.57676001669012]
データ駆動最適化では、得られた決定のサンプル性能は通常、真の性能に対して楽観的なバイアスを生じさせる。
クロスバリデーションのような、このバイアスを修正するための一般的なテクニックは、追加の最適化問題を繰り返し解決する必要があるため、コストがかかる。
我々は一階偏差を直接近似する一般バイアス補正手法を開発し、追加の最適化問題を解く必要はない。
論文 参考訳(メタデータ) (2023-06-16T07:07:58Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z) - Robust Policy Search for Robot Navigation [3.130722489512822]
複雑なロボットナビゲーションと制御問題は、ポリシー探索問題としてフレーム化することができる。
本研究では、ロバストな最適化と統計的ロバスト性の両方を取り入れ、どちらのタイプのロバスト性も相乗的であることを示す。
本稿では,いくつかのベンチマークとロボットタスクにおいて,モデル誤差を補足してもコンバージェンス保証と性能向上を実現することを目的とした。
論文 参考訳(メタデータ) (2020-03-02T16:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。