Fugu-MT 論文翻訳(概要): SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters

論文の概要: SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters

arxiv url: http://arxiv.org/abs/2502.00883v4
Date: Thu, 20 Feb 2025 15:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 13:23:53.228031
Title: SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters
Title（参考訳）: SimPER:ハイパーパラメータなしの参照アライメントに対するミニマリストアプローチ
Authors: Teng Xiao, Yige Yuan, Zhengyu Chen, Mingxiao Li, Shangsong Liang, Zhaochun Ren, Vasant G Honavar,
Abstract要約: SimPERは言語モデルアライメントのための効果的な選好最適化アルゴリズムである。 SimPERは実装が容易で、高価なハイパーパラメータチューニングと参照モデルを必要としない。 SimPERは、既存のアプローチよりも一貫して、大幅に優れています。
参考スコア（独自算出の注目度）: 40.64474084442168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing preference optimization objectives for language model alignment require additional hyperparameters that must be extensively tuned to achieve optimal performance, increasing both the complexity and time required for fine-tuning large language models. In this paper, we propose a simple yet effective hyperparameter-free preference optimization algorithm for alignment. We observe that promising performance can be achieved simply by optimizing inverse perplexity, which is calculated as the inverse of the exponentiated average log-likelihood of the chosen and rejected responses in the preference dataset. The resulting simple learning objective, SimPER, is easy to implement and eliminates the need for expensive hyperparameter tuning and a reference model, making it both computationally and memory efficient. Extensive experiments on widely used real-world benchmarks, including MT-Bench, AlpacaEval 2, and 10 key benchmarks of the Open LLM Leaderboard with 5 base models, demonstrate that SimPER consistently and significantly outperforms existing approaches-even without any hyperparameters or a reference model . For example, despite its simplicity, SimPER outperforms state-of-the-art methods by up to 5.7 points on AlpacaEval 2 and achieves the highest average ranking across 10 benchmarks on the Open LLM Leaderboard. The source code for SimPER is publicly available at: https://github.com/tengxiao1/SimPER.
Abstract（参考訳）: 既存の言語モデルアライメントのための選好最適化の目的は、最適なパフォーマンスを達成するために広範囲に調整される必要のある追加のハイパーパラメータを必要とし、大きな言語モデルを微調整するのに必要となる複雑さと時間の両方を増大させる。本稿では,アライメントのための簡易かつ効果的なハイパーパラメータフリーな選好最適化アルゴリズムを提案する。選好データセットにおける選択および拒否された応答の指数平均対数類似度(英語版)の逆数として計算される逆パープレキシティを単純に最適化することで、有望な性能が達成できることを観察する。結果として得られた単純な学習目的であるSimPERは実装が容易であり、高価なハイパーパラメータチューニングと参照モデルの必要性を排除し、計算とメモリ効率を両立させる。 MT-Bench、AlpacaEval 2、Open LLM Leaderboardの5つのベースモデルを含む10の主要ベンチマークなど、広く使われている実世界のベンチマークに関する広範な実験は、SimPERがハイパーパラメータや参照モデルなしで、既存のアプローチを一貫して大幅に上回っていることを実証している。例えば、その単純さにもかかわらず、SimPERはAlpacaEval 2で最先端のメソッドを最大5.7ポイント上回り、Open LLM Leaderboardで10ベンチマークにランクインしている。 SimPERのソースコードは、https://github.com/tengxiao1/SimPERで公開されている。

関連論文リスト

ESSA: Evolutionary Strategies for Scalable Alignment [2.589791058467358]
本稿では,進化的戦略(ES)を用いて大規模言語モデル(LLM)を効率的に整合させる新しいフレームワークであるESSAを紹介する。 ESは、高い並列化性、メモリ効率、スパース報酬に対する堅牢性、収束に必要なデータサンプルの少ないなど、LCMアライメントに適している。我々はESを勾配に基づくアライメントに代わる有望でスケーラブルな代替品として確立し、大規模言語モデルの効率的な後学習の道を開いた。
論文参考訳（メタデータ） (2025-07-06T16:23:07Z)
Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [42.362388367152256]
大規模言語モデル(LLM)は、LoRAを使用してパラメータ効率の良いCode Llamaを微調整するために使用される。提案手法は,演算オーバーヘッドを著しく低減しつつ,ルート平均角誤差(RMSE)の点で競争力や優位性を実現する。
論文参考訳（メタデータ） (2025-04-08T13:15:47Z)
Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
本研究では,100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない実証的研究を行った。我々は、固定モデルサイズ(N$)とデータセットサイズ(D$)で、ハイパーパラメータのランドスケープは広い最適度で凸性を示すことを実証的に観察した。この洞察に基づいて、我々はステップ法を正式に定義し、実証的に検証する: 最適な学習レートは、$N$と$D$との関係に従うが、最適なバッチサイズは、主に$D$の影響を受け、主に$N$に不変である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文参考訳（メタデータ） (2025-01-07T03:14:39Z)
Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-06-16T09:06:17Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Using Large Language Models for Hyperparameter Optimization [29.395931874196805]
本稿では,高パラメータ最適化(HPO)における基礎的大規模言語モデル(LLM)の利用について検討する。標準ベンチマークに対する実証的な評価により,LLMは従来のHPO手法に適合あるいは優れることがわかった。
論文参考訳（メタデータ） (2023-12-07T18:46:50Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Learning Regions of Interest for Bayesian Optimization with Adaptive Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文参考訳（メタデータ） (2023-07-25T09:45:47Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
A Comparative study of Hyper-Parameter Optimization Tools [2.6097538974670935]
我々は、4つのpythonライブラリ、すなわちOptuna、Hyperopt、Optunity、およびシーケンシャルモデルアルゴリズム構成(SMAC)の性能を比較した。私たちは、OptunaがCASH問題とNeurIPSのブラックボックス最適化の課題に対してより良いパフォーマンスを持つことを発見した。
論文参考訳（メタデータ） (2022-01-17T14:49:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。