論文の概要: MGE: A Training-Free and Efficient Model Generation and Enhancement
Scheme
- arxiv url: http://arxiv.org/abs/2402.17486v1
- Date: Tue, 27 Feb 2024 13:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:26:54.127463
- Title: MGE: A Training-Free and Efficient Model Generation and Enhancement
Scheme
- Title(参考訳): MGE: トレーニング不要で効率的なモデル生成と拡張スキーム
- Authors: Xuan Wang, Zeshan Pang, Yuliang Lu, Xuehu Yan
- Abstract要約: 本稿では,MGE(Merning-free and Efficient Model Generation and Enhancement Scheme)を提案する。
モデル生成プロセスにおいて、モデルパラメータの分布とモデルパフォーマンスの2つの側面を考慮する。
実験の結果、生成したモデルは通常の訓練によって得られたモデルに匹敵し、場合によっては優れていることが示された。
- 参考スコア(独自算出の注目度): 10.48591131837771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To provide a foundation for the research of deep learning models, the
construction of model pool is an essential step. This paper proposes a
Training-Free and Efficient Model Generation and Enhancement Scheme (MGE). This
scheme primarily considers two aspects during the model generation process: the
distribution of model parameters and model performance. Experiments result
shows that generated models are comparable to models obtained through normal
training, and even superior in some cases. Moreover, the time consumed in
generating models accounts for only 1\% of the time required for normal model
training. More importantly, with the enhancement of Evolution-MGE, generated
models exhibits competitive generalization ability in few-shot tasks. And the
behavioral dissimilarity of generated models has the potential of adversarial
defense.
- Abstract(参考訳): ディープラーニングモデルの研究の基盤を提供するには、モデルプールの構築が不可欠である。
本稿では,MGE(Training-free and Efficient Model Generation and Enhancement Scheme)を提案する。
このスキームは、主にモデル生成プロセスにおいてモデルパラメータの分布とモデル性能の2つの側面を考察する。
実験の結果、生成したモデルは通常の訓練によって得られたモデルに匹敵し、場合によっては優れていることが示された。
さらに、モデル生成に費やされる時間は、通常のモデルトレーニングに必要な時間のわずか1\%に過ぎません。
さらに重要なのは、Evolution-MGEの強化により、生成されたモデルは、数ショットタスクで競合的な一般化能力を示すことである。
そして、生成されたモデルの行動的相違性は、敵防衛の可能性を秘めている。
関連論文リスト
- Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models [34.79589443380606]
大規模言語モデル(LLM)のスケーリングは、モデルトレーニングとデプロイメントの効率性と効率性にとって重要な研究領域である。
本研究は,Dense Models と MoE Model のスケーリング法則の伝達性と相違について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:21:56Z) - Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Model Provenance via Model DNA [23.885185988451667]
本稿では,機械学習モデルの特徴を表現した新しいモデルDNAについて紹介する。
本研究では,対象モデルの事前学習モデルであるかどうかを識別できるモデル証明同定のための効率的なフレームワークを開発する。
論文 参考訳(メタデータ) (2023-08-04T03:46:41Z) - Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。
暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。
驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文 参考訳(メタデータ) (2023-07-16T11:45:35Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。