論文の概要: Where to start? Analyzing the potential value of intermediate models
- arxiv url: http://arxiv.org/abs/2211.00107v2
- Date: Wed, 2 Nov 2022 08:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 11:51:28.827250
- Title: Where to start? Analyzing the potential value of intermediate models
- Title(参考訳): どこから始めるか?
中間モデルのポテンシャル値の解析
- Authors: Leshem Choshen, Elad Venezian, Shachar Don-Yehia, Noam Slonim, Yoav
Katz
- Abstract要約: 我々は、幅広い英語の分類タスクに対して、エンフェイントレーニングスキームの体系的解析を行う。
意外なことに、我々の分析は、ターゲットデータセットに対して、潜在的インタートラクションゲインを独立して分析できることを示唆している。
そこで本研究では,実環境におけるベースモデルの選択方法を決定するための,実用的で効率的な手法を提案する。
- 参考スコア(独自算出の注目度): 16.32982010228009
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Previous studies observed that finetuned models may be better base models
than the vanilla pretrained model. Such a model, finetuned on some source
dataset, may provide a better starting point for a new finetuning process on a
desired target dataset. Here, we perform a systematic analysis of this
\emph{intertraining} scheme, over a wide range of English classification tasks.
Surprisingly, our analysis suggests that the potential intertraining gain can
be analyzed \emph{independently} for the target dataset under consideration,
and for a base model being considered as a starting point. This is in contrast
to current perception that the alignment between the target dataset and the
source dataset used to generate the base model is a major factor in determining
intertraining success. We analyze different aspects that contribute to each.
Furthermore, we leverage our analysis to propose a practical and efficient
approach to determine if and how to select a base model in real-world settings.
Last, we release an updating ranking of best models in the HuggingFace hub per
architecture https://ibm.github.io/model-recycling/.
- Abstract(参考訳): 以前の研究では、微調整されたモデルはバニラ事前訓練されたモデルよりも良い基礎モデルである可能性がある。
そのようなモデルは、あるソースデータセットで微調整され、望ましいターゲットデータセット上の新しい微調整プロセスの出発点となるかもしれない。
ここでは、この「emph{intertraining}」スキームを、幅広い英語の分類タスクに対して体系的に分析する。
意外なことに,本分析は,対象データセットに対して,ベースモデルが出発点として考慮されている場合の,潜在的な相互学習利得を,対象データセットに対して独立に分析できることを示唆している。
これは、ターゲットデータセットとベースモデルを生成するために使用されるソースデータセットのアライメントが、インタートレーニングの成功を決定する主要な要因であるという現在の認識とは対照的である。
それぞれに寄与するさまざまな側面を分析します。
さらに,本研究では,実環境におけるベースモデルの選択方法を決定するための,実用的で効率的な手法を提案する。
最後に、HuggingFace Hub per architecture https://ibm.github.io/model-recycling/.NET/ で最高のモデルのランキングを更新した。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Policy Trees for Prediction: Interpretable and Adaptive Model Selection for Machine Learning [5.877778007271621]
予測モデルやアンサンブルを適応的に選択するための解釈可能なポリシーを導出するツリーベースアプローチであるOP2T(Optimal Predictive-Policy Trees)を導入する。
提案手法は,モデル出力へのアクセスを前提としてのみ,解釈可能かつ適応的なモデル選択と拒否を可能にする。
構造化データと非構造化データの両方を用いた回帰および分類タスクを含む実世界のデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-30T21:21:33Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Comparing Foundation Models using Data Kernels [13.099029073152257]
基礎モデルの埋め込み空間幾何学を直接比較するための方法論を提案する。
提案手法はランダムグラフ理論に基づいており, 埋め込み類似性の有効な仮説検証を可能にする。
本稿では, 距離関数を付加したモデルの多様体が, 下流の指標と強く相関することを示す。
論文 参考訳(メタデータ) (2023-05-09T02:01:07Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - A Topological-Framework to Improve Analysis of Machine Learning Model
Performance [5.3893373617126565]
本稿では、データセットをモデルが動作する「空間」として扱う機械学習モデルを評価するためのフレームワークを提案する。
本稿では,各サブポピュレーション間でのモデル性能の保存と解析に有用なトポロジカルデータ構造であるプレシーブについて述べる。
論文 参考訳(メタデータ) (2021-07-09T23:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。