論文の概要: Text-to-LoRA: Instant Transformer Adaption
- arxiv url: http://arxiv.org/abs/2506.06105v2
- Date: Mon, 09 Jun 2025 14:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.173329
- Title: Text-to-LoRA: Instant Transformer Adaption
- Title(参考訳): Text-to-LoRA:インスタントトランスフォーマー適応
- Authors: Rujikorn Charakorn, Edoardo Cetin, Yujin Tang, Robert Tjarko Lange,
- Abstract要約: Text-to-LoRAは、自然言語記述のみに基づいて、大規模言語モデル(LLM)をオンザフライで適用可能なモデルである。
アドホックに再構成されたLoRAインスタンスは,タスク固有のアダプタの性能に適合することを示す。
また、T2Lは数百のLoRAインスタンスを圧縮し、ゼロショットを全く見えないタスクに一般化できることを示す。
- 参考スコア(独自算出の注目度): 16.530637840459725
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Foundation Models provide a general tool for rapid content creation, they regularly require task-specific adaptation. Traditionally, this exercise involves careful curation of datasets and repeated fine-tuning of the underlying model. Fine-tuning techniques enable practitioners to adapt foundation models for many new applications but require expensive and lengthy training while being notably sensitive to hyperparameter choices. To overcome these limitations, we introduce Text-to-LoRA (T2L), a model capable of adapting large language models (LLMs) on the fly solely based on a natural language description of the target task. T2L is a hypernetwork trained to construct LoRAs in a single inexpensive forward pass. After training T2L on a suite of 9 pre-trained LoRA adapters (GSM8K, Arc, etc.), we show that the ad-hoc reconstructed LoRA instances match the performance of task-specific adapters across the corresponding test sets. Furthermore, T2L can compress hundreds of LoRA instances and zero-shot generalize to entirely unseen tasks. This approach provides a significant step towards democratizing the specialization of foundation models and enables language-based adaptation with minimal compute requirements. Our code is available at https://github.com/SakanaAI/text-to-lora
- Abstract(参考訳): Foundation Modelsは、迅速なコンテンツ作成のための一般的なツールを提供するが、それらは定期的にタスク固有の適応を必要とする。
伝統的に、このエクササイズには、データセットの慎重にキュレーションと、基礎となるモデルの反復的な微調整が含まれる。
ファインチューニング技術により、実践者は多くの新しいアプリケーションに基礎モデルを適用することができるが、高パラメータの選択に特に敏感でありながら、高価で長いトレーニングを必要とする。
これらの制約を克服するために,ターゲットタスクの自然言語記述のみに基づいて,大規模言語モデル(LLM)をオンザフライで適用可能なText-to-LoRA(T2L)を導入する。
T2Lは、1つの安価なフォワードパスでLoRAを構築するために訓練されたハイパーネットワークである。
9つの事前訓練されたLoRAアダプタ(GSM8K, Arcなど)でT2Lをトレーニングした後, アドホックに再構成されたLoRAインスタンスは, 対応するテストセット間でタスク固有のアダプタのパフォーマンスに適合することを示した。
さらに、T2Lは数百のLoRAインスタンスを圧縮し、ゼロショットを全く見えないタスクに一般化することができる。
このアプローチは基礎モデルの特殊化を民主化するための重要なステップを提供し、最小限の計算要件で言語ベースの適応を可能にする。
私たちのコードはhttps://github.com/SakanaAI/text-to-loraで利用可能です。
関連論文リスト
- WeightLoRA: Keep Only Necessary Adapters [79.89637596855]
低ランク適応(texttLoRA$)は、指定されたレイヤにトレーニング可能なアダプタを追加する。
我々は、最も重要な$textttLoRA$ヘッダの適応的な選択によってこの問題を克服する新しい方法である$textttWeightLoRA$を提案する。
我々は、一連の競合ベンチマークとDeBERTa、BART、Llamaモデルの実験を行い、我々の手法を異なる適応的アプローチと比較した。
論文 参考訳(メタデータ) (2025-06-03T10:33:16Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - DyLoRA: Parameter Efficient Tuning of Pre-trained Models using Dynamic
Search-Free Low-Rank Adaptation [18.922066770467914]
ローランクアダプタ(LoRA)は、モデルの主要なトレーニング済み重量を凍結させ、学習可能なSVDモジュールをモデルに導入する。
LoRAブロックはパラメータ効率が高いが、2つの大きな問題に悩まされている。
これら2つの問題を解決するために,動的低ランク適応(DyLoRA)技術を導入する。
論文 参考訳(メタデータ) (2022-10-14T06:29:22Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。