論文の概要: To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO
- arxiv url: http://arxiv.org/abs/2404.04575v3
- Date: Sun, 16 Jun 2024 12:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:07:34.969565
- Title: To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO
- Title(参考訳): 冷却か冷却か? 温度ネットワークがDROによる大型ファンデーションモデルを発表
- Authors: Zi-Hao Qiu, Siqi Guo, Mao Xu, Tuo Zhao, Lijun Zhang, Tianbao Yang,
- Abstract要約: LFMを改善するために,小型だが一般化可能な温度予測ネットワーク(TempNet)を学習するための基本的枠組みを提案する。
LLMとCLIPモデルに関する我々の実験は、TempNetが既存のソリューションやモデルの性能を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 68.69840111477367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The temperature parameter plays a profound role during training and/or inference with large foundation models (LFMs) such as large language models (LLMs) and CLIP models. Particularly, it adjusts the logits in the softmax function in LLMs, which is crucial for next token generation, and it scales the similarities in the contrastive loss for training CLIP models. A significant question remains: Is it viable to learn a neural network to predict a personalized temperature of any input data for enhancing LFMs"? In this paper, we present a principled framework for learning a small yet generalizable temperature prediction network (TempNet) to improve LFMs. Our solution is composed of a novel learning framework with a robust loss underpinned by constrained distributionally robust optimization (DRO), and a properly designed TempNet with theoretical inspiration. TempNet can be trained together with a large foundation model from scratch or learned separately given a pretrained foundation model. It is not only useful for predicting personalized temperature to promote the training of LFMs but also generalizable and transferable to new tasks. Our experiments on LLMs and CLIP models demonstrate that TempNet greatly improves the performance of existing solutions or models, e.g. Table 1. The code to reproduce the experimental results in this paper can be found at https://github.com/zhqiu/TempNet.
- Abstract(参考訳): 温度パラメータは、大きな言語モデル(LLM)やCLIPモデルのような大きな基礎モデル(LFM)によるトレーニングおよび/または推論において重要な役割を果たす。
特に、次のトークン生成に不可欠であるLSMのソフトマックス関数のロジットを調整し、CLIPモデルのトレーニングにおける対照的な損失の類似性を拡大する。
重要な疑問が残る: LFMを強化するために、入力データのパーソナライズされた温度を予測するためにニューラルネットワークを学ぶことは可能か?
本稿では,小型だが一般化可能な温度予測ネットワーク(TempNet)を学習し,LFMを改善するためのフレームワークを提案する。
提案手法は,制約付き分散ロバスト最適化(DRO)に基づくロバストな損失を持つ新しい学習フレームワークと,理論的なインスピレーションを備えたTempNetから構成される。
TempNetは、スクラッチから大きなファンデーションモデルと一緒にトレーニングするか、事前訓練されたファンデーションモデルから別々に学習することができる。
LFMのトレーニングを促進するためにパーソナライズされた温度を予測するだけでなく、新しいタスクへの一般化と転送も可能である。
LLMとCLIPモデルに関する我々の実験は、TempNetが既存のソリューションやモデルの性能を大幅に改善することを示した。
この論文で実験結果を再現するコードはhttps://github.com/zhqiu/TempNet.comにある。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Mitigating Noise Detriment in Differentially Private Federated Learning with Model Pre-training [27.1846697092374]
事前トレーニングは、公開データセットを利用して高度な機械学習モデルを事前トレーニングする。
我々は、モデル事前学習が、微分プライベートなフェデレーション学習におけるノイズの軽減をいかに可能か、最初に検討する。
論文 参考訳(メタデータ) (2024-08-18T13:48:10Z) - Save It All: Enabling Full Parameter Tuning for Federated Large Language Models via Cycle Block Gradient Descent [15.463595798992621]
大規模言語モデル(LLM)はディープラーニングパラダイムに革命をもたらし、幅広いタスクで印象的な結果をもたらしている。
既存のソリューションは、モデル全体がトレーニングのために交換されるという非現実的な仮定を定めている。
本稿では,資源消費を最小限に抑えつつ,FLにおけるLLMの効率的なトレーニングと微調整を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T03:49:44Z) - A Survey on Efficient Federated Learning Methods for Foundation Model Training [62.473245910234304]
フェデレーテッド・ラーニング(FL)は、多数のクライアントにわたるプライバシー保護協調トレーニングを促進するための確立した技術となっている。
Foundation Models (FM)の後、多くのディープラーニングアプリケーションでは現実が異なる。
FLアプリケーションに対するパラメータ効率細調整(PEFT)の利点と欠点について論じる。
論文 参考訳(メタデータ) (2024-01-09T10:22:23Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。