論文の概要: Multi-armed bandits for online optimization of language model
pre-training: the use case of dynamic masking
- arxiv url: http://arxiv.org/abs/2203.13151v1
- Date: Thu, 24 Mar 2022 16:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:23:55.334032
- Title: Multi-armed bandits for online optimization of language model
pre-training: the use case of dynamic masking
- Title(参考訳): オンライン言語モデルの事前学習最適化のためのマルチアームバンディット:動的マスキングのユースケース
- Authors: I\~nigo Urteaga, Moulay-Za\"idane Dra\"idia, Tomer Lancewicki and
Shahram Khadivi
- Abstract要約: トランスフォーマーベース言語モデル(TLM)は最先端の言語処理アプリケーションを提供する。
モデルは、Masked Language Model (MLM)のような汎用目的関数を最小限に抑えるために、大量のテキスト上で事前訓練される。
- 参考スコア(独自算出の注目度): 7.3618738570222915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (TLMs) provide state-of-the-art performance
in many modern natural language processing applications. TLM training is
conducted in two phases. First, the model is pre-trained over large volumes of
text to minimize a generic objective function, such as the Masked Language
Model (MLM). Second, the model is fine-tuned in specific downstream tasks.
Pre-training requires large volumes of data and high computational resources,
while introducing many still unresolved design choices. For instance, selecting
hyperparameters for language model pre-training is often carried out based on
heuristics or grid-based searches. In this work, we propose a multi-armed
bandit-based online optimization framework for the sequential selection of
pre-training hyperparameters to optimize language model performance. We pose
the pre-training procedure as a sequential decision-making task, where at each
pre-training step, an agent must determine what hyperparameters to use towards
optimizing the pre-training objective. We propose a Thompson sampling bandit
algorithm, based on a surrogate Gaussian process reward model of the MLM
pre-training objective, for its sequential minimization. We empirically show
how the proposed Gaussian process based Thompson sampling pre-trains robust and
well-performing language models. Namely, by sequentially selecting masking
hyperparameters of the TLM, we achieve satisfactory performance in less epochs,
not only in terms of the pre-training MLM objective, but in diverse downstream
fine-tuning tasks. The proposed bandit-based technique provides an automated
hyperparameter selection method for pre-training TLMs of interest to
practitioners. In addition, our results indicate that, instead of MLM
pre-training with fixed masking probabilities, sequentially adapting the
masking hyperparameters improves both pre-training loss and downstream task
metrics.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(TLM)は、現代の多くの自然言語処理アプリケーションで最先端のパフォーマンスを提供する。
TLMトレーニングは2段階で行われる。
第一に、モデルはMasked Language Model (MLM)のような汎用目的関数を最小限に抑えるために、大量のテキスト上で事前訓練される。
第二に、モデルは特定の下流タスクで微調整される。
事前学習には大量のデータと高い計算資源が必要であるが、まだ未解決の設計選択が数多く導入されている。
例えば、言語モデル事前学習のためのハイパーパラメータの選択は、ヒューリスティックやグリッドベースの検索に基づいて行われることが多い。
本研究では,言語モデルの性能を最適化するために,事前学習型ハイパーパラメータの逐次選択のためのマルチアームバンディットベースのオンライン最適化フレームワークを提案する。
事前学習の手順を逐次的な意思決定タスクとして、事前学習の各ステップにおいて、エージェントが事前学習目標の最適化に使用するハイパーパラメータを決定する必要がある。
逐次最小化のために,MLM事前学習目標の代用ガウス過程報酬モデルに基づくトンプソンサンプリングバンドイットアルゴリズムを提案する。
提案するガウス過程に基づくトンプソンサンプリングが,頑健で高性能な言語モデルをどのように学習するかを実証的に示す。
すなわち、TLMのマスキングハイパーパラメータを逐次選択することで、事前学習されたMLMの目的だけでなく、下流の様々な微調整タスクにおいても、少ないエポックで満足できる性能が得られる。
提案手法は,実践者が興味を持つTLMを事前学習するための自動ハイパーパラメータ選択法を提供する。
さらに,本研究の結果は,固定マスキング確率のMLM事前トレーニングの代わりに,マスクハイパーパラメータの逐次適応により,事前トレーニング損失とダウンストリームタスクメトリクスが改善されることを示唆している。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - In-the-loop Hyper-Parameter Optimization for LLM-Based Automated Design of Heuristics [0.020482269513546456]
大規模言語モデル(LLM)は、(メタ)ヒューリスティックを自動的に生成し最適化する大きな可能性を示している。
本稿では,オープンソースのLLaMEAフレームワークとハイパー進化最適化(HPO)手法を統合した新しいハイブリッドアプローチであるLLaMEA-HPOを提案する。
論文 参考訳(メタデータ) (2024-10-07T14:04:31Z) - CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning [23.21367081440852]
大規模言語モデル(LLM)は、スケーラブルな事前学習と高度な微調整によって、自然言語の理解と生成に大きな進歩をもたらした。
我々は,大規模なコード-参照ペアのコーパスを利用する,スケーラブルな選好モデル事前学習(PMP)パイプラインであるCodePMPを紹介する。
CodePMPは、大規模な合成コード-参照ペアの好みモデルを事前学習することで、RM微調整効率を向上する。
論文 参考訳(メタデータ) (2024-10-03T05:51:26Z) - Optimization Hyper-parameter Laws for Large Language Models [52.49860340549727]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Hyperparameter Optimization for Large Language Model Instruction-Tuning [6.743825167463901]
トレーニング済みLLMをブラックボックスとして微調整と検証を行うパイプライン全体について検討する。
本研究では,提案アルゴリズムを用いて高次パラメータの空間を効率的に探索し,チューニングモデルの性能向上と人為的アライメントを実現する。
論文 参考訳(メタデータ) (2023-12-01T22:03:12Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Multi-level Training and Bayesian Optimization for Economical
Hyperparameter Optimization [12.92634461859467]
本稿では,ハイパーパラメータ最適化に必要なトレーニング時間の総量を削減するための効果的な手法を開発する。
光のトレーニングによって生じる近似的な性能測定をキャリブレーションするために, トランキャット付加法ガウス過程モデルを提案する。
このモデルに基づいて、逐次モデルに基づくアルゴリズムが開発され、構成空間のパフォーマンスプロファイルを生成し、最適なモデルを見つける。
論文 参考訳(メタデータ) (2020-07-20T09:03:02Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。