Fugu-MT 論文翻訳(概要): Learning the Regularization Strength for Deep Fine-Tuning via a Data-Emphasized Variational Objective

論文の概要: Learning the Regularization Strength for Deep Fine-Tuning via a Data-Emphasized Variational Objective

arxiv url: http://arxiv.org/abs/2410.19675v1
Date: Fri, 25 Oct 2024 16:32:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.489602
Title: Learning the Regularization Strength for Deep Fine-Tuning via a Data-Emphasized Variational Objective
Title（参考訳）: データ強調変分目的物を用いた深部微調整における正則化強度の学習
Authors: Ethan Harvey, Mikhail Petrov, Michael C. Hughes,
Abstract要約: グリッド検索は計算コストが高く、検証セットを彫り出す必要があり、実践者は候補値を指定する必要がある。提案手法はグリッド探索の3つの欠点をすべて克服する。いくつかのデータセットにおける画像分類タスクの有効性を実証し,既存の手法に匹敵するホールドアウト精度を得た。
参考スコア（独自算出の注目度）: 4.453137996095194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A number of popular transfer learning methods rely on grid search to select regularization hyperparameters that control over-fitting. This grid search requirement has several key disadvantages: the search is computationally expensive, requires carving out a validation set that reduces the size of available data for model training, and requires practitioners to specify candidate values. In this paper, we propose an alternative to grid search: directly learning regularization hyperparameters on the full training set via model selection techniques based on the evidence lower bound ("ELBo") objective from variational methods. For deep neural networks with millions of parameters, we specifically recommend a modified ELBo that upweights the influence of the data likelihood relative to the prior while remaining a valid bound on the evidence for Bayesian model selection. Our proposed technique overcomes all three disadvantages of grid search. We demonstrate effectiveness on image classification tasks on several datasets, yielding heldout accuracy comparable to existing approaches with far less compute time.
Abstract（参考訳）: 多くの人気のある転送学習手法はグリッドサーチに頼り、オーバーフィットを制御する正規化ハイパーパラメータを選択する。このグリッド探索要求にはいくつかの重要な欠点がある: 探索は計算に高価であり、モデルのトレーニングで利用可能なデータのサイズを減らす検証セットを彫り出す必要があり、実践者は候補値を指定する必要がある。本稿では,モデル選択手法を用いて正規化ハイパーパラメーターを直接学習するグリッド探索の代替手法を提案する。数百万のパラメータを持つディープニューラルネットワークでは、ベイズモデル選択の証拠に有効な境界を残しながら、前と相対的なデータ可能性の影響を重み付けする修正されたELBoを特に推奨する。提案手法はグリッド探索の3つの欠点をすべて克服する。いくつかのデータセットにおける画像分類タスクの有効性を実証し,計算時間を大幅に削減した既存手法に匹敵するホールドアウト精度を得た。

関連論文リスト

Learning Hyperparameters via a Data-Emphasized Variational Objective [4.453137996095194]
グリッド検索は計算コストが高く、検証セットを彫り出す必要があり、ユーザは候補値を指定する必要がある。正規化ハイパーパラメータを,エビデンスローバウンド(ELBo)の目的を通じて,フルトレーニングセット上で直接学習する手法を提案する。提案手法により,過去の作業の88時間以上のグリッド検索を3時間以内の精度で行うことができることを示す。
論文参考訳（メタデータ） (2025-02-03T22:19:35Z)
Algorithm Selection with Probing Trajectories: Benchmarking the Choice of Classifier Model [0.20718016474717196]
BBOBベンチマークスイートを用いた分類タスクにおいて、17の異なる分類器と3種類のトラジェクトリを用いてベンチマーク研究を行う。分類器の選択は、特徴ベースのモデルと間隔ベースのモデルが最良の選択であることを示している。
論文参考訳（メタデータ） (2025-01-20T11:28:45Z)
TSDS: Data Selection for Task-Specific Model Finetuning [39.19448080265558]
タスク固有の微調整の有効性は、適切なトレーニングデータの選択に大きく依存する。本稿では,タスク固有のモデル微調整のためのデータ選択フレームワークであるTSDS(Task-Specific Data Selection)を提案する。提案手法で選択したデータを用いて,1%選択率で命令チューニングを行う場合,全データセットで処理性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-15T05:54:17Z)
Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文参考訳（メタデータ） (2024-10-14T15:48:09Z)
SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。本稿では,DA手法の評価と,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの公平な評価を行うフレームワークを提案する。本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-07-16T12:52:29Z)
Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。 FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文参考訳（メタデータ） (2023-09-29T15:50:14Z)
Complementary Learning Subnetworks for Parameter-Efficient Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文参考訳（メタデータ） (2023-06-21T01:43:25Z)
MILO: Model-Agnostic Subset Selection Framework for Efficient Model Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文参考訳（メタデータ） (2023-01-30T20:59:30Z)
Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文参考訳（メタデータ） (2022-09-26T17:59:58Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Finding High-Value Training Data Subset through Differentiable Convex Programming [5.5180456567480896]
本稿では,トレーニングデータの高値部分集合を選択する問題について検討する。重要なアイデアは、オンラインサブセット選択のための学習可能なフレームワークを設計することです。このフレームワークを用いて,選択モデルとmlモデルのパラメータを共同で学習するオンライン交流最小化アルゴリズムを設計する。
論文参考訳（メタデータ） (2021-04-28T14:33:26Z)
ABM: an automatic supervised feature engineering method for loss based models based on group and fused lasso [0.0]
分類や回帰問題の解決における重要な問題は、モデルに入力される前のデータに特徴工学と変数選択を適用することである。本稿では,グループとラッソを融合したエンドツーエンドのカットポイント選択手法を提案する。
論文参考訳（メタデータ） (2020-09-22T12:42:22Z)
Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。 PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文参考訳（メタデータ） (2020-07-07T03:36:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。