Fugu-MT 論文翻訳(概要): Model Fusion through Bayesian Optimization in Language Model Fine-Tuning

論文の概要: Model Fusion through Bayesian Optimization in Language Model Fine-Tuning

arxiv url: http://arxiv.org/abs/2411.06710v1
Date: Mon, 11 Nov 2024 04:36:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.346031
Title: Model Fusion through Bayesian Optimization in Language Model Fine-Tuning
Title（参考訳）: 言語モデルファインチューニングにおけるベイズ最適化によるモデル融合
Authors: Chaeyun Jang, Hyungi Lee, Jungtaek Kim, Juho Lee,
Abstract要約: 下流タスクのための微調整された事前学習モデルは、様々な領域にまたがる適応性と信頼性で広く採用されているテクニックである。本稿では,多目的ベイズ最適化により,所望の計量と損失の両方を最適化する新しいモデル融合手法を提案する。各種下流タスクを対象とした実験では,ベイズ最適化誘導方式による大幅な性能向上が見られた。
参考スコア（独自算出の注目度）: 16.86812534268461
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning pre-trained models for downstream tasks is a widely adopted technique known for its adaptability and reliability across various domains. Despite its conceptual simplicity, fine-tuning entails several troublesome engineering choices, such as selecting hyperparameters and determining checkpoints from an optimization trajectory. To tackle the difficulty of choosing the best model, one effective solution is model fusion, which combines multiple models in a parameter space. However, we observe a large discrepancy between loss and metric landscapes during the fine-tuning of pre-trained language models. Building on this observation, we introduce a novel model fusion technique that optimizes both the desired metric and loss through multi-objective Bayesian optimization. In addition, to effectively select hyperparameters, we establish a two-stage procedure by integrating Bayesian optimization processes into our framework. Experiments across various downstream tasks show considerable performance improvements using our Bayesian optimization-guided method.
Abstract（参考訳）: 下流タスクのための微調整事前学習モデルは、様々な領域にまたがる適応性と信頼性で広く採用されているテクニックである。その概念的単純さにもかかわらず、微調整はハイパーパラメータの選択や最適化軌道からのチェックポイントの決定など、いくつかの厄介なエンジニアリング選択を必要とする。最良のモデルを選択することの難しさに対処するために、1つの効果的な解はモデル融合であり、パラメータ空間における複数のモデルを組み合わせている。しかし,事前学習した言語モデルの微調整において,損失と距離のランドスケープとの間に大きな相違が認められた。この観測に基づいて、多目的ベイズ最適化により、所望の計量と損失の両方を最適化する新しいモデル融合手法を導入する。さらに,ハイパーパラメータを効果的に選択するために,ベイズ最適化プロセスをフレームワークに組み込むことにより,2段階の手順を確立する。各種下流タスクを対象とした実験では,ベイズ最適化誘導方式による大幅な性能向上が見られた。

関連論文リスト

From Parameter to Representation: A Closed-Form Approach for Controllable Model Merging [22.794831741556468]
モデルマージは、マルチタスクのパフォーマンスのエキスパートモデルを組み合わせるが、パラメータ干渉による課題に直面している。既存のアプローチではコンパイル型クエリーのパラダイムを採用しており、高速で好み対応のモデル生成を可能にするために、コストのかかるオフラインの多目的最適化を実行する。我々は、この補正を最適線形変換としてモデル化し、オフライン最適化プロセス全体を単一ステップでアーキテクチャに依存しない計算で置き換える閉形式解を得る。
論文参考訳（メタデータ） (2025-11-14T04:09:25Z)
Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization [13.271737599933147]
本稿では,エントロピー強化フレームワークであるEntroPOを紹介し,既存の優先最適化アルゴリズムをマルチターンツール支援設定に適用する。 EntroPOは、さまざまな家族やサイズのモデル群を微調整することで検証する。 swebenchのリーダーボードでは、オープンウェイトモデルの間で、新しい最先端の結果が確立される。
論文参考訳（メタデータ） (2025-09-15T20:36:19Z)
Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-21T16:49:38Z)
Trajectory-Based Multi-Objective Hyperparameter Optimization for Model Retraining [8.598456741786801]
本稿では,新しいトラジェクトリベース多目的ベイズ最適化アルゴリズムを提案する。我々のアルゴリズムは、より優れたトレードオフとチューニング効率の両面において、最先端のマルチオブジェクトよりも優れています。
論文参考訳（メタデータ） (2024-05-24T07:43:45Z)
End-to-End Learning for Fair Multiobjective Optimization Under Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文参考訳（メタデータ） (2024-02-12T16:33:35Z)
Towards Safe Multi-Task Bayesian Optimization [1.3654846342364308]
システムの物理モデルを減らすことは最適化プロセスに組み込むことができ、それを加速することができる。これらのモデルは実際のシステムの近似を提供することができ、それらの評価は極めて安価である。安全はベイズ最適化のようなオンライン最適化手法にとって重要な基準である。
論文参考訳（メタデータ） (2023-12-12T13:59:26Z)
Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文参考訳（メタデータ） (2023-11-22T01:32:06Z)
A Survey on Multi-Objective based Parameter Optimization for Deep Learning [1.3223682837381137]
深層ニューラルネットワークを用いたパラメータ最適化における多目的最適化手法の有効性について検討する。これら2つの手法を組み合わせて、複数のアプリケーションにおける予測と分析の生成に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-05-17T07:48:54Z)
Agent-based Collaborative Random Search for Hyper-parameter Tuning and Global Function Optimization [0.0]
本稿では,機械学習モデルにおける任意のハイパーパラメータの任意の集合に対する近似値を求めるためのエージェントベース協調手法を提案する。提案モデルの動作,特に設計パラメータの変化に対して,機械学習およびグローバル関数最適化アプリケーションの両方で検討する。
論文参考訳（メタデータ） (2023-03-03T21:10:17Z)
Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。このアプローチは多くの実装と最適化の課題をもたらします。提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文参考訳（メタデータ） (2021-03-18T14:26:26Z)
Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文参考訳（メタデータ） (2020-09-01T19:12:11Z)
Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文参考訳（メタデータ） (2020-08-02T02:56:30Z)
Automatically Learning Compact Quality-aware Surrogates for Optimization Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文参考訳（メタデータ） (2020-06-18T19:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。