論文の概要: ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse
- arxiv url: http://arxiv.org/abs/2308.09158v1
- Date: Thu, 17 Aug 2023 19:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 15:37:21.786857
- Title: ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse
- Title(参考訳): ZhiJian: 事前トレーニングされたモデル再利用のための統一的で迅速なデプロイ可能なツールボックス
- Authors: Yi-Kai Zhang, Lu Ren, Chao Yi, Qi-Wei Wang, De-Chuan Zhan, Han-Jia Ye
- Abstract要約: 本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
- 参考スコア(独自算出の注目度): 59.500060790983994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of foundation pre-trained models and their fine-tuned
counterparts has significantly contributed to the advancement of machine
learning. Leveraging pre-trained models to extract knowledge and expedite
learning in real-world tasks, known as "Model Reuse", has become crucial in
various applications. Previous research focuses on reusing models within a
certain aspect, including reusing model weights, structures, and hypothesis
spaces. This paper introduces ZhiJian, a comprehensive and user-friendly
toolbox for model reuse, utilizing the PyTorch backend. ZhiJian presents a
novel paradigm that unifies diverse perspectives on model reuse, encompassing
target architecture construction with PTM, tuning target model with PTM, and
PTM-based inference. This empowers deep learning practitioners to explore
downstream tasks and identify the complementary advantages among different
methods. ZhiJian is readily accessible at
https://github.com/zhangyikaii/lamda-zhijian facilitating seamless utilization
of pre-trained models and streamlining the model reuse process for researchers
and developers.
- Abstract(参考訳): 基礎学習モデルとその微調整モデルの急速な拡張は、機械学習の進歩に大きく貢献している。
モデル再利用(model reuse)と呼ばれる現実のタスクにおける知識の抽出と迅速な学習に事前学習されたモデルを活用することは、様々なアプリケーションにおいて重要になっている。
以前の研究は、モデル重み、構造、仮説空間の再利用を含む、ある特定の側面におけるモデルの再利用に焦点を当てていた。
本稿では,pytorchバックエンドを利用したモデル再利用のための包括的かつユーザフレンドリーなツールボックスであるzhijianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、PTMに基づく推論など、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
これにより、ディープラーニングの実践者は、下流のタスクを探索し、異なるメソッド間の相補的なアドバンテージを特定することができる。
ZhiJianはhttps://github.com/zhangyikaii/lamda-zhijianで簡単にアクセスでき、事前トレーニングされたモデルのシームレスな利用と、研究者や開発者のモデルの再利用プロセスを合理化することができる。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [12.146530928616386]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。
この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。
事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
論文 参考訳(メタデータ) (2023-12-11T19:10:55Z) - A Framework for Monitoring and Retraining Language Models in Real-World
Applications [3.566775910781198]
多くの現実世界のアプリケーションでは、継続的モデル監視とモデル再トレーニングが必要になります。
データやコンセプトドリフトなどの再トレーニングにはさまざまな理由があり、適切なメトリックによって監視されるモデルのパフォーマンスに反映される可能性がある。
マルチラベル分類モデルを用いて, モデル性能や資源利用などの重要な要因に対する各種リトレーニング決定点の影響について検討する。
論文 参考訳(メタデータ) (2023-11-16T14:32:18Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。