論文の概要: Token-level Adaptation of LoRA Adapters for Downstream Task
Generalization
- arxiv url: http://arxiv.org/abs/2311.10847v1
- Date: Fri, 17 Nov 2023 20:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 13:59:29.073906
- Title: Token-level Adaptation of LoRA Adapters for Downstream Task
Generalization
- Title(参考訳): 下流タスク一般化のためのLoRAアダプタのトークンレベル適応
- Authors: Joshua Belofsky
- Abstract要約: 本稿では,小規模言語モデルにおけるLoRAアダプタを任意のダウンストリームタスクに適応させる手法を提案する。
本手法では,トレーニングや推論の計算要求を増大させることなく,専門家の重み付けの組み合わせを選択するために,勾配のないルーティング関数を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a method for adapting LoRA adapters in smaller-sized
language models to arbitrary downstream tasks. Unlike standard
mixture-of-expert architectures, our method employs a gradient-free routing
function to choose a weighted combination of experts without increasing the
compute requirements for training or inference. The results show that
token-level adaptation of LoRA adapters outperforms the base Llama-2-7b model
across mathematical (GSM8K), scientific (ARC-Challenge), reading comprehension
(SQuAD), and coding (CodeAlpaca-20k) tasks. Further evaluations also show that
the average performance of token-level adaptation outperforms individual models
fine-tuned for each of the tasks with the best performance observed in
adaptation of every-other token during inference. The code for this study is
made available through a public repository.
- Abstract(参考訳): 本稿では,小規模言語モデルにおけるLoRAアダプタを任意のダウンストリームタスクに適応させる手法を提案する。
従来の混在型アーキテクチャとは異なり,本手法では,トレーニングや推論の計算要求を増大させることなく,専門家の重み付けされた組み合わせを選択するために勾配のないルーティング関数を用いる。
その結果,LoRAアダプタのトークンレベル適応は,数学(GSM8K),科学(ARC-Challenge),読書理解(SQuAD),コーディング(CodeAlpaca-20k)タスクにおいて,基礎となるLlama-2-7bモデルよりも優れていた。
さらに、トークンレベルの適応の平均性能は、各タスクごとに微調整された個々のモデルよりも優れており、推論中に各トークンの適応で観察される最高のパフォーマンスが示される。
本研究のコードは,パブリックリポジトリを通じて公開されている。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Collaborative and Efficient Personalization with Mixtures of Adaptors [5.195669033269619]
マルチタスク学習問題に対処するパラメータ効率の枠組みを提案する。
FLoRAL(Federated Low-Rank Adaptive Learning)と呼ぶフレームワークがあります。
人工データセットと実世界のフェデレートされたマルチタスク問題に関する有望な実験結果を示す。
論文 参考訳(メタデータ) (2024-10-04T15:11:15Z) - Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning [55.384428765798496]
新しいデータは、Eコマースプラットフォームレビューのような、長期にわたる流通を示す。
これは、忘れずに不均衡なデータを連続的なモデルで学習する必要がある。
LTCILの例として,AdaPtive Adapter Routing (APART) を提案する。
論文 参考訳(メタデータ) (2024-09-11T17:52:00Z) - Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。
モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。
ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文 参考訳(メタデータ) (2024-05-18T03:02:23Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning [34.109808214968176]
Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。
一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。
GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-13T17:59:32Z) - OWAdapt: An adaptive loss function for deep learning using OWA operators [0.8437187555622164]
分類タスクにおけるディープラーニング性能を向上させるファジィ適応損失関数を提案する。
本稿では,ファジィ論理のパワーを活用して分類精度を向上させる手法を提案する。
本手法は、標準的なクロスエントロピーや焦点損失など、他の一般的な損失関数よりも優れている。
論文 参考訳(メタデータ) (2023-05-30T22:34:48Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Contextual Squeeze-and-Excitation for Efficient Few-Shot Image
Classification [57.36281142038042]
本稿では,事前学習したニューラルネットワークを新しいタスクで調整し,性能を大幅に向上させる,Contextual Squeeze-and-Excitation (CaSE) という適応ブロックを提案する。
また、メタトレーニングされたCaSEブロックと微調整ルーチンを利用して効率よく適応する、アッパーCaSEと呼ばれるコーディネートダイスに基づく新しいトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2022-06-20T15:25:08Z) - Adaptive Sampling for Minimax Fair Classification [40.936345085421955]
最適化の原理に基づく適応型サンプリングアルゴリズムを提案し,その性能に関する理論的境界を導出する。
特定の問題のクラスに対してアルゴリズム独立なローバウンドを導出することにより,適応スキームによる性能は一般に改善できないことを示した。
論文 参考訳(メタデータ) (2021-03-01T04:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。