論文の概要: Meta-Learning Adaptable Foundation Models
- arxiv url: http://arxiv.org/abs/2410.22264v1
- Date: Tue, 29 Oct 2024 17:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:41.958805
- Title: Meta-Learning Adaptable Foundation Models
- Title(参考訳): メタラーニング適応基盤モデル
- Authors: Jacob L. Block, Sundararajan Srinivasan, Liam Collins, Aryan Mokhtari, Sanjay Shakkottai,
- Abstract要約: 本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
- 参考スコア(独自算出の注目度): 37.458141335750696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The power of foundation models (FMs) lies in their capacity to learn highly expressive representations that can be adapted to a broad spectrum of tasks. However, these pretrained models require multiple stages of fine-tuning to become effective for downstream applications. Conventionally, the model is first retrained on the aggregate of a diverse set of tasks of interest and then adapted to specific low-resource downstream tasks by utilizing a parameter-efficient fine-tuning (PEFT) scheme. While this two-phase procedure seems reasonable, the independence of the retraining and fine-tuning phases causes a major issue, as there is no guarantee the retrained model will achieve good performance post-fine-tuning. To explicitly address this issue, we introduce a meta-learning framework infused with PEFT in this intermediate retraining stage to learn a model that can be easily adapted to unseen tasks. For our theoretical results, we focus on linear models using low-rank adaptations. In this setting, we demonstrate the suboptimality of standard retraining for finding an adaptable set of parameters. Further, we prove that our method recovers the optimally adaptable parameters. We then apply these theoretical insights to retraining the RoBERTa model to predict the continuation of conversations between different personas within the ConvAI2 dataset. Empirically, we observe significant performance benefits using our proposed meta-learning scheme during retraining relative to the conventional approach.
- Abstract(参考訳): 基礎モデル(FM)の力は、幅広いタスクに適応できる高度に表現力のある表現を学ぶ能力にある。
しかし、これらの事前訓練されたモデルは、下流のアプリケーションに効果的になるためには、微調整の複数の段階を必要とする。
従来、モデルは様々なタスクの集合に基づいて再訓練され、パラメータ効率の良い微調整(PEFT)方式を用いて、特定の低リソースの下流タスクに適応する。
この2段階の手順は妥当に思えるが、再訓練と微調整の相の独立は、再訓練されたモデルが微調整後の良好な性能を達成できる保証がないため、大きな問題を引き起こす。
そこで本研究では,PEFTを組み込んだメタ学習フレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
理論的には、低ランク適応を用いた線形モデルに焦点をあてる。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
さらに,本手法が最適適応可能なパラメータを復元することを示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の異なるペルソナ間の会話の継続を予測する。
実験により,従来の手法と比較して,メタラーニング手法を用いて,評価性能の大幅な向上を実証した。
関連論文リスト
- $α$-LoRA: Effective Fine-Tuning via Base Model Rescaling [41.58663029548425]
そこで我々は, 微調整モデルの能力一般化を促進するために, 伝達学習のための新しいクラスreパラメタライゼーション手法を提案する。
ランダム行列理論のツールを用いた高次元二値分類設定において,本手法の有効性を確立し,より現実的な実験により理論的知見を検証した。
論文 参考訳(メタデータ) (2025-10-24T11:19:33Z) - In-Context Learning for Gradient-Free Receiver Adaptation: Principles, Applications, and Theory [54.92893355284945]
ディープラーニングベースの無線受信機は、様々なチャネル環境に動的に適応する能力を提供する。
ジョイントトレーニング、ハイパーネットワークベースの手法、メタラーニングを含む現在の適応戦略は、限られた柔軟性を示すか、勾配降下による明示的な最適化を必要とする。
本稿では、インコンテキスト学習(ICL)の新たなパラダイムに根ざした勾配なし適応手法を提案する。
論文 参考訳(メタデータ) (2025-06-18T06:43:55Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - Estimating the Effects of Sample Training Orders for Large Language Models without Retraining [49.59675538160363]
大規模言語モデル(LLM)において,サンプルの訓練順序が重要な役割を担っている
従来の手法では、様々なサンプル順序でモデルを再訓練する必要がある。
リトレーニングフリーのフレームワークを設計することで従来の手法を改善します。
論文 参考訳(メタデータ) (2025-05-28T07:07:02Z) - Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。
LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。
既存のアプローチ、例えば、コンテキスト内学習や。
PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文 参考訳(メタデータ) (2025-05-25T11:54:23Z) - Bayesian Principles Improve Prompt Learning In Vision-Language Models [10.593234723172767]
本稿では,適応性と一般化性のバランスをとるためのベイズ学習原理に基づく新たな学習目標関数を提案する。
この目的は、訓練済みモデルに近いまま、微調整されたモデルが下流のタスクに適応できるようにすることでバランスを確立する。
論文 参考訳(メタデータ) (2025-04-19T00:48:09Z) - Transfer Learning with Foundational Models for Time Series Forecasting using Low-Rank Adaptations [0.0]
本研究は,時系列予測タスクに対するFM,Large Language Modelsの直接的な適応手法であるLLIAMを提案する。
LLIAMとRecurrent Neural NetworksやTemporal Convolutional Networks、LLMベースのTimeLLMなど、さまざまな最先端DLアルゴリズムのパフォーマンスの比較を行った。
本研究の結果はLLIAMの有効性を実証し, この単純かつ汎用的なアプローチは, 複雑な修正を加える必要がなくなることなく, 有能な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-10-15T12:14:01Z) - Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement [0.7558576228782637]
我々は、効率的なソースフリードメイン適応(SFDA)のためのフレームワークを提案する。
提案手法は,ソースモデル作成およびターゲット側適応のための改良されたパラダイムを導入する。
我々は,本フレームワークが様々なSFDA法と互換性があり,計算効率が高いことを実証した。
論文 参考訳(メタデータ) (2024-10-03T02:12:03Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models [7.428199805959228]
Few-shot semantic segmentation (FSS) はコンピュータビジョンにおいて重要な課題である。
一般化的特徴抽出器としての視覚基盤モデル(VFM)の出現に伴い,これらのモデルをFSSに適用することを模索する。
本稿では,このタスクに適した単純で簡単な適応プロセスを備えた,新しい現実的なベンチマークを提案する。
論文 参考訳(メタデータ) (2024-01-20T19:50:51Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Structured Prediction for Conditional Meta-Learning [44.30857707980074]
構造化予測を用いた条件付きメタラーニングの新しい視点を提案する。
タスク適応型構造化メタラーニング(TASML: Task-Adaptive Structured Meta-learning)は,タスク固有目的関数を生成する基本的フレームワークである。
実験により,TASMLは既存のメタラーニングモデルの性能を向上し,ベンチマークデータセットの最先端性を上回った。
論文 参考訳(メタデータ) (2020-02-20T15:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。