Fugu-MT 論文翻訳(概要): Leveraging free energy in pretraining model selection for improved fine-tuning

論文の概要: Leveraging free energy in pretraining model selection for improved fine-tuning

arxiv url: http://arxiv.org/abs/2410.05612v1
Date: Tue, 8 Oct 2024 01:50:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 17:38:51.419123
Title: Leveraging free energy in pretraining model selection for improved fine-tuning
Title（参考訳）: 微調整改善のための事前学習モデル選択における自由エネルギーの活用
Authors: Michael Munn, Susan Wei,
Abstract要約: 本稿では,下流タスクにおいて,近傍の好ましいパラメータの濃度を測定することで,チェックポイントの適応性を定量化する自由エネルギー基準を提案する。我々は、自由エネルギー基準が微調整性能の向上と確実に相関しているという実証的証拠を提供する。
参考スコア（独自算出の注目度）: 4.005483185111992
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in artificial intelligence have been fueled by the development of foundation models such as BERT, GPT, T5, and Vision Transformers. These models are first pretrained on vast and diverse datasets and then adapted to specific downstream tasks, often with significantly less data. However, the mechanisms behind the success of this ubiquitous pretrain-then-adapt paradigm remain underexplored, particularly the characteristics of pretraining checkpoints that lend themselves to good downstream adaptation. We introduce a Bayesian model selection criterion, called the downstream free energy, which quantifies a checkpoint's adaptability by measuring the concentration of nearby favorable parameters for the downstream task. We demonstrate that this free energy criterion can be effectively implemented without access to the downstream data or prior knowledge of the downstream task. Furthermore, we provide empirical evidence that the free energy criterion reliably correlates with improved fine-tuning performance, offering a principled approach to predicting model adaptability.
Abstract（参考訳）: 人工知能の最近の進歩は、BERT、GPT、T5、Vision Transformersといった基礎モデルの開発によって加速されている。これらのモデルは、最初は広範囲で多様なデータセットで事前訓練され、その後、データ量が大幅に少ない特定の下流タスクに適応する。しかし、このユビキタス・プレトレイン・アダプティブ・パラダイムの成功のメカニズムは、特に下流適応に寄与する事前訓練チェックポイントの特性について、未解明のままである。我々は、下流自由エネルギーと呼ばれるベイズモデル選択基準を導入し、下流タスクの近傍で好ましいパラメータの濃度を測定することによってチェックポイントの適応性を定量化する。我々は,この自由エネルギー基準を,下流データや下流タスクの事前知識にアクセスせずに効果的に実装できることを実証した。さらに、自由エネルギー基準が微調整性能の向上と確実に相関し、モデル適応性を予測するための原則的アプローチを提供するという実証的証拠を提供する。

関連論文リスト

SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。 Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文参考訳（メタデータ） (2024-07-28T19:18:59Z)
Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization [28.977757627384165]
ドメイン・ドメイン(DG)は、限られたトレーニングデータと見つからないテストデータの間の分散シフトが発生したとき、モデルの性能劣化を避けることを目的としている。近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練されており、強力な一般化能力を示している。我々のフレームワークは5つのDGベンチマークでSOTA性能を実現し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。
論文参考訳（メタデータ） (2024-07-21T07:50:49Z)
AiGAS-dEVL: An Adaptive Incremental Neural Gas Model for Drifting Data Streams under Extreme Verification Latency [6.7236795813629]
ストリーミング設定では、データフローはパターン(コンセプトドリフト)の非定常性をもたらす要因によって影響を受ける。本稿では,AiGAS-dEVLという新しい手法を提案する。これは,時間とともにストリーム内で検出されるすべての概念の分布を特徴付けるために,神経ガスの増大に依存する。我々のアプローチは、時間とともにこれらの点の挙動をオンライン分析することで、特徴空間における概念の進化が定義できるようになることを明らかにしている。
論文参考訳（メタデータ） (2024-07-07T14:04:57Z)
Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。 EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-04-17T10:59:57Z)
On the contribution of pre-trained models to accuracy and utility in modeling distributed energy resources [0.0]
本研究では,微調整の有無にかかわらず,事前学習モデルによる予測精度の向上を評価する。事前学習されたモデルは異種エージェントに等しく改善するのだろうか。
論文参考訳（メタデータ） (2023-02-22T22:29:40Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文参考訳（メタデータ） (2021-07-05T19:10:11Z)
Back2Future: Leveraging Backfill Dynamics for Improving Real-time Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文参考訳（メタデータ） (2021-06-08T14:48:20Z)
Energy-Based Processes for Exchangeable Data [109.04978766553612]
エネルギーベースモデルを交換可能なデータに拡張するために、エネルギーベースプロセス(EBP)を導入する。 EBPの鍵となる利点は、集合上のより柔軟な分布を、その濃度を制限することなく表現できることである。本研究では,多種多様なタスクにおける最先端性能を実演する電子掲示板の効率的な訓練手順を開発する。
論文参考訳（メタデータ） (2020-03-17T04:26:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。