論文の概要: Bayesian Optimization for Enhanced Language Models: Optimizing Acquisition Functions
- arxiv url: http://arxiv.org/abs/2505.17151v1
- Date: Thu, 22 May 2025 10:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.615238
- Title: Bayesian Optimization for Enhanced Language Models: Optimizing Acquisition Functions
- Title(参考訳): 拡張言語モデルのベイズ最適化:獲得関数の最適化
- Authors: Zishuo Bao, Yibo Liu, Changyutao Qiu,
- Abstract要約: 大規模な言語モデルの微調整を改善するために,バイレベルBO戦略と組み合わせたモデル融合アプローチであるBilevel - BO - SWAを導入する。
内ループはトレーニング損失の最小化を行い,外ループはw.r.t.valメトリックを最適化する。
RoBERTA-baseを用いたGLUEタスクの実験では、EIとUCBを使用すると、一般化が向上し、チューニングが最大2.7%改善できることが示されている。
- 参考スコア(独自算出の注目度): 0.6554326244334868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of different language model architecture, fine-tuning is becoming even more important for down stream tasks Model gets messy, finding proper hyperparameters for fine-tuning. Although BO has been tried for hyperparameter tuning, most of the existing methods are oblivious to the fact that BO relies on careful choices of acquisition functions, which are essential components of BO that guide how much to explore versus exploit during the optimization process; Different acquisition functions have different levels of sensitivity towards training loss and validation performance; existing methods often just apply an acquisition function no matter if the training and validation performance are sensitive to the acquisition function or not. This work introduces{Bilevel - BO - SWA}, a model fusion approach coupled with a bilevel BO strategy to improve the fine - tunning of large language models. Our work on mixture of acquisition functions like EI and UCB into nested opt loops, where inner loop perform minimization of training loss while outer loops optimized w.r.t. val metric. Experiments on GLUE tasks using RoBERTA - base show that when using EI and UCB, there is an improvement in generalization, and fine - tuning can be improved by up to 2.7%.
- Abstract(参考訳): 異なる言語モデルアーキテクチャの台頭により、ダウンストリームタスクにおいて微調整がさらに重要になっている。
BOはハイパーパラメータチューニングのために試みられているが,既存の手法の多くは,BOが最適化プロセスにおいてどの程度の探索とエクスプロイトを行うべきかを導くBOの本質的な構成要素である取得関数の慎重な選択に依存しているという事実や,学習損失やバリデーション性能に対して異なる感度の差がある,既存の手法では,トレーニングやバリデーション性能が取得関数に敏感であるかどうかに関わらず,単に取得関数を適用するのみである,といった点に懐疑的だ。
この研究は、大規模な言語モデルの微調整を改善するために、2レベルBO戦略と結合したモデル融合アプローチである{Bilevel - BO - SWA}を紹介する。
内ループはトレーニング損失の最小化を行い,外ループはw.r.t.valメトリックを最適化する。
RoBERTA-baseを用いたGLUEタスクの実験では、EIとUCBを使用すると、一般化が向上し、チューニングが最大2.7%改善できることが示されている。
関連論文リスト
- FunBO: Discovering Acquisition Functions for Bayesian Optimization with FunSearch [21.41322548859776]
本稿では、FunBOを用いて、コンピュータコードで書かれた新しい取得関数を学習する方法を示す。
本稿では,FunBOが関数のトレーニング分布の内外をよく一般化するAFを特定する方法を示す。
論文 参考訳(メタデータ) (2024-06-07T10:49:59Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - Non-Convex Bilevel Optimization with Time-Varying Objective Functions [57.299128109226025]
本稿では,時間変化の可能なオンライン二段階最適化を提案し,エージェントがオンラインデータを用いて決定を継続的に更新する。
既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。
軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。
論文 参考訳(メタデータ) (2023-08-07T06:27:57Z) - Predictive Modeling through Hyper-Bayesian Optimization [60.586813904500595]
本稿では,モデル選択とBOを統合する新しい手法を提案する。
このアルゴリズムは、モデル空間のBOと関数空間のBOの間を行き来する。
サンプル効率の改善に加えて、ブラックボックス機能に関する情報も出力する。
論文 参考訳(メタデータ) (2023-08-01T04:46:58Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - A General Recipe for Likelihood-free Bayesian Optimization [115.82591413062546]
我々は,BOをより広範なモデルやユーティリティに拡張する可能性のないBO(LFBO)を提案する。
LFBOは、確率的代理モデルと個別に推論を行うことなく、取得関数を直接モデル化する。
LFBOにおける取得関数の計算は、重み付けされた分類問題を最適化することで削減できることを示す。
論文 参考訳(メタデータ) (2022-06-27T03:55:27Z) - Bayesian Optimization over Permutation Spaces [30.650753803587794]
BOPS (Permutation Spaces) に対する2つのアルゴリズムの提案と評価を行った。
BOPS-Tの性能を理論的に解析し,その後悔がサブリニアに増加することを示す。
複数の合成および実世界のベンチマーク実験により、BOPS-TとBOPS-Hは、空間に対する最先端のBOアルゴリズムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-12-02T08:20:50Z) - Efficient Exploration in Binary and Preferential Bayesian Optimization [0.5076419064097732]
BOアルゴリズムは,異なるタイプの不確かさを区別することが重要であることを示す。
本稿では,最先端のBO関数より優れた新たな獲得関数を提案する。
論文 参考訳(メタデータ) (2021-10-18T14:44:34Z) - Pre-trained Gaussian Processes for Bayesian Optimization [24.730678780782647]
本稿では,HyperBO という事前学習型 BO フレームワークを提案する。
GPが既知の「地中真実」を仮定することなく, 後続の予測と, ほぼゼロの後悔をHyperBOに示す。
論文 参考訳(メタデータ) (2021-09-16T20:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。