論文の概要: Towards Modular LLMs by Building and Reusing a Library of LoRAs
- arxiv url: http://arxiv.org/abs/2405.11157v1
- Date: Sat, 18 May 2024 03:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 19:07:29.686425
- Title: Towards Modular LLMs by Building and Reusing a Library of LoRAs
- Title(参考訳): LoRA ライブラリの構築と再利用によるモジュール LLM の実現に向けて
- Authors: Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni,
- Abstract要約: マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。
モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。
ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
- 参考スコア(独自算出の注目度): 64.43376695346538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing number of parameter-efficient adaptations of a base large language model (LLM) calls for studying whether we can reuse such trained adapters to improve performance for new tasks. We study how to best build a library of adapters given multi-task data and devise techniques for both zero-shot and supervised task generalization through routing in such library. We benchmark existing approaches to build this library and introduce model-based clustering, MBC, a method that groups tasks based on the similarity of their adapter parameters, indirectly optimizing for transfer across the multi-task dataset. To re-use the library, we present a novel zero-shot routing mechanism, Arrow, which enables dynamic selection of the most relevant adapters for new inputs without the need for retraining. We experiment with several LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying that MBC-based adapters and Arrow routing lead to superior generalization to new tasks. We make steps towards creating modular, adaptable LLMs that can match or outperform traditional joint training.
- Abstract(参考訳): 基礎となる大規模言語モデル(LLM)のパラメータ効率適応の増大は、そのような訓練されたアダプタを再利用して新しいタスクのパフォーマンスを向上させることができるかどうかを研究することを要求する。
本研究では,マルチタスクデータに対して最適なアダプタライブラリを構築する方法と,そのようなライブラリのルーティングによるゼロショットおよび教師付きタスクの一般化のためのテクニックを考案する。
我々は、このライブラリを構築するための既存のアプローチをベンチマークし、モデルベースのクラスタリング(MBC)を導入し、そのパラメータの類似性に基づいてタスクをグループ化し、マルチタスクデータセット間の転送を間接的に最適化する手法を紹介した。
ライブラリを再使用するために,新たなゼロショットルーティング機構であるArrowを提案する。
MBCベースのアダプタとArrowルーティングが新しいタスクに優れた一般化をもたらすことを検証し、Phi-2 や Mistral といった複数の LLM を広範囲のホールドアウトタスクで実験した。
私たちは、従来のジョイントトレーニングにマッチしたり、より優れたりするモジュラーで適応可能なLLMを作成するためのステップを作成します。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs [44.054569398300266]
ワンパス生成・検索フレームワーク(OneGen)
OneGenは、自動回帰的に生成された検索トークンを組み込むことで、生成と検索のための従来の別々のトレーニングアプローチを橋渡しする。
その結果,LLMの生成能力を維持しつつ,検索性能の向上を図っている。
論文 参考訳(メタデータ) (2024-09-08T16:35:19Z) - MergeRepair: An Exploratory Study on Merging Task-Specific Adapters in Code LLMs for Automated Program Repair [5.006064616335817]
大規模言語モデル(LLM)は、いくつかのソフトウェア開発関連のタスクで優れたパフォーマンスを示している。
本研究は,Code LLMにおける連続的なマージとマージアダプタの機能について実験的に検討する。
論文 参考訳(メタデータ) (2024-08-18T18:45:48Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Adapters: A Unified Library for Parameter-Efficient and Modular Transfer
Learning [109.25673110120906]
本稿では,大規模言語モデルにおけるパラメータ効率とモジュール移動学習を統一したオープンソースのライブラリであるAdaptersを紹介する。
10の多様なアダプタメソッドを統一インターフェースに統合することにより、Adaptersは使いやすさとフレキシブルな設定を提供する。
論文 参考訳(メタデータ) (2023-11-18T13:53:26Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - Multipath agents for modular multitask ML systems [2.579908688646812]
提案した研究は、複数のメソッドを異なるエージェントとして定義できる新しい方法論を紹介した。
エージェントは、与えられたタスクに対するMLモデルの生成と改善のために協力し、競争することができる。
論文 参考訳(メタデータ) (2023-02-06T11:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。