Fugu-MT 論文翻訳(概要): A Two-Phase Recall-and-Select Framework for Fast Model Selection

論文の概要: A Two-Phase Recall-and-Select Framework for Fast Model Selection

arxiv url: http://arxiv.org/abs/2404.00069v1
Date: Thu, 28 Mar 2024 14:44:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 07:27:29.273456
Title: A Two-Phase Recall-and-Select Framework for Fast Model Selection
Title（参考訳）: 高速モデル選択のための2相リコール・アンド・セレクションフレームワーク
Authors: Jianwei Cui, Wenhang Shi, Honglin Tao, Wei Lu, Xiaoyong Du,
Abstract要約: 本稿では,2相モデル選択フレームワークを提案する。これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
参考スコア（独自算出の注目度）: 13.385915962994806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the ubiquity of deep learning in various machine learning applications has amplified, a proliferation of neural network models has been trained and shared on public model repositories. In the context of a targeted machine learning assignment, utilizing an apt source model as a starting point typically outperforms the strategy of training from scratch, particularly with limited training data. Despite the investigation and development of numerous model selection strategies in prior work, the process remains time-consuming, especially given the ever-increasing scale of model repositories. In this paper, we propose a two-phase (coarse-recall and fine-selection) model selection framework, aiming to enhance the efficiency of selecting a robust model by leveraging the models' training performances on benchmark datasets. Specifically, the coarse-recall phase clusters models showcasing similar training performances on benchmark datasets in an offline manner. A light-weight proxy score is subsequently computed between this model cluster and the target dataset, which serves to recall a significantly smaller subset of potential candidate models in a swift manner. In the following fine-selection phase, the final model is chosen by fine-tuning the recalled models on the target dataset with successive halving. To accelerate the process, the final fine-tuning performance of each potential model is predicted by mining the model's convergence trend on the benchmark datasets, which aids in filtering lower performance models more earlier during fine-tuning. Through extensive experimentation on tasks covering natural language processing and computer vision, it has been demonstrated that the proposed methodology facilitates the selection of a high-performing model at a rate about 3x times faster than conventional baseline methods. Our code is available at https://github.com/plasware/two-phase-selection.
Abstract（参考訳）: さまざまな機械学習アプリケーションにおけるディープラーニングの普及が拡大するにつれ、ニューラルネットワークモデルの普及がトレーニングされ、公開モデルリポジトリで共有されている。ターゲットとなる機械学習の課題の文脈では、アプタソースモデルを出発点として利用することで、特に限られたトレーニングデータにおいて、スクラッチからトレーニングの戦略を上回ります。先行作業における多数のモデル選択戦略の調査と開発にもかかわらず、特にモデルリポジトリの規模が増加し続けることを考えると、プロセスは時間を要する。本稿では、ベンチマークデータセット上でモデルのトレーニング性能を活用することにより、ロバストモデルを選択する効率を高めることを目的とした、2相モデル選択フレームワークを提案する。具体的には、粗いリコールフェーズクラスタモデルが、オフラインでベンチマークデータセット上で同様のトレーニングパフォーマンスを示している。その後、このモデルクラスタとターゲットデータセットの間で軽量なプロキシスコアが計算される。次のファインセレクションフェーズでは、最終モデルは、ターゲットデータセット上のリコールされたモデルを、連続した半減期で微調整することによって選択される。このプロセスを加速するために、各ポテンシャルモデルの最終的な微調整性能は、ベンチマークデータセット上でモデルの収束傾向をマイニングすることで予測される。自然言語処理とコンピュータビジョンを含むタスクの広範な実験を通じて,提案手法は,従来のベースライン手法の約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。私たちのコードはhttps://github.com/plasware/two-phase-selection.comで利用可能です。

関連論文リスト

LLM Data Selection and Utilization via Dynamic Bi-level Optimization [100.20933466418786]
本研究では,各バッチ内で選択したデータの重み付けを調整し,トレーニング中の動的データ利用を実現するための新しいデータ重み付けモデル(DWM)を提案する。実験により,DWMはランダムに選択されたデータを用いて訓練されたモデルの性能を向上させることが示された。さらに、トレーニング中にモデルのデータ嗜好がどのように進化するかを分析し、トレーニング中のモデルのデータ嗜好に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-07-22T02:47:12Z)
GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文参考訳（メタデータ） (2025-06-17T04:34:27Z)
Can We Recycle Our Old Models? An Empirical Evaluation of Model Selection Mechanisms for AIOps Solutions [12.963288374621342]
既存のAIOpsソリューションは通常、定期的なトレーニングを通じてコンセプトドリフトに対してAIOpsモデルをメンテナンスする。最適なAIOpsモデルを選択する際の能力を評価することにより、いくつかのモデル選択メカニズムを評価する。また,既存モデル選択法と理論上界との相違点も明らかにした。
論文参考訳（メタデータ） (2025-05-05T18:47:18Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Towards Fundamentally Scalable Model Selection: Asymptotically Fast Update and Selection [40.85209520973634]
理想的なモデル選択スキームは、候補モデルの大きなプール上で2つの操作を効率的にサポートすべきである。モデル選択に対する従来の解決策は、これらの2つの操作のうちの少なくとも1つに対して高い計算複雑性を必要とする。モデル埋め込みを実証的に実現したStandardized Embedderを提案する。
論文参考訳（メタデータ） (2024-06-11T17:57:49Z)
Budgeted Online Model Selection and Fine-Tuning via Federated Learning [26.823435733330705]
オンラインモデル選択では、候補モデルのセットからモデルを選択して、データのストリームで予測を実行する。その後の候補モデルの選択は、パフォーマンスに決定的な影響を与えます。本稿では,学習者グループ(クライアント)が十分なメモリを持つサーバと対話するオンラインフェデレーションモデル選択フレームワークを提案する。提案したアルゴリズムを用いて、クライアントとサーバは微調整モデルと協調して非定常環境に適応する。
論文参考訳（メタデータ） (2024-01-19T04:02:49Z)
Dual Student Networks for Data-Free Model Stealing [79.67498803845059]
主な課題は、パラメータにアクセスせずにターゲットモデルの勾配を推定し、多様なトレーニングサンプルを生成することである。そこで本研究では,2人の学生が左右対称に学習し,学生が反対するサンプルを生成するための基準を提案する。我々の新しい最適化フレームワークは、目標モデルのより正確な勾配推定と、ベンチマーク分類データセットの精度向上を提供する。
論文参考訳（メタデータ） (2023-09-18T18:11:31Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
MILO: Model-Agnostic Subset Selection Framework for Efficient Model Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文参考訳（メタデータ） (2023-01-30T20:59:30Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Model Selection, Adaptation, and Combination for Deep Transfer Learning through Neural Networks in Renewable Energies [5.953831950062808]
再生可能電力予測におけるモデル選択と伝達学習の適応のための最初の徹底的な実験を行う。異なる季節のデータに基づくモデルを採用し、トレーニングデータの量を制限する。複数のモデルをアンサンブルで組み合わせることで、モデル選択と適応のアプローチが大幅に改善されることを示す。
論文参考訳（メタデータ） (2022-04-28T05:34:50Z)
Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-26T09:08:38Z)
Model-specific Data Subsampling with Influence Functions [37.64859614131316]
トレーニングポイントが様々な影響を持つ場合、ランダムサンプリングよりも優れたモデル固有データサブサンプリング戦略を開発する。具体的には、影響関数を活用して、選択戦略をガイドし、理論的に証明し、我々のアプローチが素早く高品質なモデルを選択することを実証する。
論文参考訳（メタデータ） (2020-10-20T12:10:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。