論文の概要: Minifinetuning: Low-Data Generation Domain Adaptation through Corrective Self-Distillation
- arxiv url: http://arxiv.org/abs/2506.15702v1
- Date: Fri, 30 May 2025 01:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.767616
- Title: Minifinetuning: Low-Data Generation Domain Adaptation through Corrective Self-Distillation
- Title(参考訳): 最小化: 補正自己蒸留による低データ領域適応
- Authors: Peter Belcak, Greg Heinrich, Jan Kautz, Pavlo Molchanov,
- Abstract要約: Minifinetuningは、低データ設定におけるオーバーフィッティングによるデジェネレーションの効果を低減する。
MFTは標準的な微調整よりも2~10倍の専門化・一般化比を示す。
- 参考スコア(独自算出の注目度): 48.52666201053625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning language models for a new domain inevitably leads to the deterioration of their general performance. This becomes more pronounced the more limited the finetuning data resource. We introduce minifinetuning (MFT), a method for language model domain adaptation that considerably reduces the effects of overfitting-induced degeneralization in low-data settings and which does so in the absence of any pre-training data for replay. MFT demonstrates 2-10x more favourable specialization-to-degeneralization ratios than standard finetuning across a wide range of models and domains and exhibits an intrinsic robustness to overfitting when data in the new domain is scarce and down to as little as 500 samples. Employing corrective self-distillation that is individualized on the sample level, MFT outperforms parameter-efficient finetuning methods, demonstrates replay-like degeneralization mitigation properties, and is composable with either for a combined effect.
- Abstract(参考訳): 新しいドメインのための微調整言語モデルは、必然的にその一般的な性能を低下させる。
これにより、微調整されたデータリソースがより制限されるようになる。
MFT(Minimumfinetuning)は、低データ設定における過度な非一般化の影響を大幅に低減し、リプレイのための事前学習データがない場合にその効果を小さくする言語モデルドメイン適応法である。
MFTは、様々なモデルやドメインにわたる標準的な微調整よりも2~10倍の専門化と一般化の比率を示し、新しいドメインのデータが不足して500サンプル未満の場合には、オーバーフィッティングに対する本質的な堅牢性を示す。
試料レベルで個別化される補正自己蒸留を用いて、MFTはパラメータ効率のよい微調整法を上回り、リプレイライクな一般化緩和特性を示し、組み合わせた効果で構成可能である。
関連論文リスト
- Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - Domain-Aware Fine-Tuning: Enhancing Neural Network Adaptability [4.671615537573023]
Domain-Aware Fine-Tuning (DAFT)は、バッチ正規化変換と線形探索と微調整の統合を組み合わせた新しいアプローチである。
提案手法は特徴歪みを著しく軽減し,分布内および分布外の両方のデータセット上でのモデル性能の向上を実現する。
論文 参考訳(メタデータ) (2023-08-15T12:08:43Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。