論文の概要: Efficient Ensemble for Fine-tuning Language Models on Multiple Datasets
- arxiv url: http://arxiv.org/abs/2505.21930v1
- Date: Wed, 28 May 2025 03:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.393825
- Title: Efficient Ensemble for Fine-tuning Language Models on Multiple Datasets
- Title(参考訳): 複数データセットを用いた微調整言語モデルの効率的なアンサンブル
- Authors: Dongyue Li, Ziniu Zhang, Lu Wang, Hongyang R. Zhang,
- Abstract要約: 量子化LoRAのような既存の方法は、単一のデータセットに適応する際に効率的である。
タスク毎に1つのアダプタではなく、複数の小さなアダプタのアンサンブルを提案する。
我々のアプローチでは、QLoRAよりも10%高い平均テスト精度が提供され、わずか9%以上のFLOPが提供されます。
- 参考スコア(独自算出の注目度): 17.79010397902909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper develops an ensemble method for fine-tuning a language model to multiple datasets. Existing methods, such as quantized LoRA (QLoRA), are efficient when adapting to a single dataset. When training on multiple datasets of different tasks, a common setup in practice, it remains unclear how to design an efficient adaptation for fine-tuning language models. We propose to use an ensemble of multiple smaller adapters instead of a single adapter per task. We design an efficient algorithm that partitions $n$ datasets into $m$ groups, where $m$ is typically much smaller than $n$ in practice, and train one adapter for each group before taking a weighted combination to form the ensemble. The algorithm leverages a first-order approximation property of low-rank adaptation to quickly obtain the fine-tuning performances of dataset combinations since methods like LoRA stay close to the base model. Hence, we use the gradients of the base model to estimate its behavior during fine-tuning. Empirically, this approximation holds with less than $1\%$ error on models with up to $34$ billion parameters, leading to an estimation of true fine-tuning performances under $5\%$ error while speeding up computation compared to base fine-tuning by $105$ times. When applied to fine-tune Llama and GPT models on ten text classification tasks, our approach provides up to $10\%$ higher average test accuracy over QLoRA, with only $9\%$ more FLOPs. On a Llama model with $34$ billion parameters, an ensemble of QLoRA increases test accuracy by $3\%$ compared to QLoRA, with only $8\%$ more FLOPs.
- Abstract(参考訳): 本稿では,言語モデルを複数のデータセットに微調整するアンサンブル手法を提案する。
量子化LoRA(QLoRA)のような既存の方法は、単一のデータセットに適応する場合に効率的である。
異なるタスクの複数のデータセット(実際には共通的な設定)をトレーニングする場合、微調整言語モデルに対する効率的な適応をどのように設計するかは、いまだ不明である。
タスク毎に1つのアダプタではなく、複数の小さなアダプタのアンサンブルを使用することを提案する。
私たちは、$n$データセットを$m$グループに分割する効率的なアルゴリズムを設計します。
このアルゴリズムは低ランク適応の1次近似特性を利用して、LoRAのような手法がベースモデルに近いため、データセットの組み合わせの微調整性能を迅速に得る。
したがって、基礎モデルの勾配を用いて微調整時の挙動を推定する。
経験的に、この近似は最大34億ドルのパラメータを持つモデルで1\%以下の誤差を保ち、真の微調整性能を5\%以下の誤差で推定すると同時に、ベース微調整に比べて105ドルの精度で計算を高速化する。
10種類のテキスト分類タスクでLlamaモデルとGPTモデルを適用すると、QLoRAよりも10\%高い平均テスト精度が得られ、FLOPはわずか9\%である。
パラメータが34億ドルのLlamaモデルでは、QLoRAのアンサンブルはテストの精度をQLoRAと比較して$3\%向上する。
関連論文リスト
- Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - PL-$k$NN: A Parameterless Nearest Neighbors Classifier [0.24499092754102875]
k$-Nearest Neighborsは、多くの問題で使われている最も効果的で簡単なモデルの1つである。
本稿では、$k$の値を定義する必要性を回避した$k$-Nearest Neighbors分類器を提案する。
論文 参考訳(メタデータ) (2022-09-26T12:52:45Z) - Efficient and robust high-dimensional sparse logistic regression via
nonlinear primal-dual hybrid gradient algorithms [0.0]
弾性ネットペナルティによって正規化されるロジスティック回帰問題に対する解を確実に計算する反復アルゴリズムを提案する。
この結果は、一階最適化法に対して$O(min(m2n,mn2)log (1/epsilon))$の既知の複雑性境界を改善する。
論文 参考訳(メタデータ) (2021-11-30T14:16:48Z) - Learning-to-Rank with Partitioned Preference: Fast Estimation for the
Plackett-Luce Model [24.923231199480433]
M$パーティションを持つ$N$アイテムが与えられた場合、PLモデルの下でパーティショニングされた好みを持つデータの確率を計算すると、時間複雑性は$O(N+S!)$である。
時間複雑性$O(N+S3)$で確率とその勾配を計算するための効率的な数値積分法を提案する。
論文 参考訳(メタデータ) (2020-06-09T06:11:21Z) - Sparse Regression at Scale: Branch-and-Bound rooted in First-Order
Optimization [6.037383467521294]
我々は $ell_0$ 正規化回帰のための新しい正確な MIP フレームワークを提案する。
私たちのフレームワークは、$p sim 107$までスケールでき、少なくとも5,000$xのスピードアップを達成できます。
実装をツールキットL0BnBでオープンソースにしています。
論文 参考訳(メタデータ) (2020-04-13T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。