論文の概要: To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO
- arxiv url: http://arxiv.org/abs/2404.04575v3
- Date: Sun, 16 Jun 2024 12:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:07:34.969565
- Title: To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO
- Title(参考訳): 冷却か冷却か? 温度ネットワークがDROによる大型ファンデーションモデルを発表
- Authors: Zi-Hao Qiu, Siqi Guo, Mao Xu, Tuo Zhao, Lijun Zhang, Tianbao Yang,
- Abstract要約: LFMを改善するために,小型だが一般化可能な温度予測ネットワーク(TempNet)を学習するための基本的枠組みを提案する。
LLMとCLIPモデルに関する我々の実験は、TempNetが既存のソリューションやモデルの性能を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 68.69840111477367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The temperature parameter plays a profound role during training and/or inference with large foundation models (LFMs) such as large language models (LLMs) and CLIP models. Particularly, it adjusts the logits in the softmax function in LLMs, which is crucial for next token generation, and it scales the similarities in the contrastive loss for training CLIP models. A significant question remains: Is it viable to learn a neural network to predict a personalized temperature of any input data for enhancing LFMs"? In this paper, we present a principled framework for learning a small yet generalizable temperature prediction network (TempNet) to improve LFMs. Our solution is composed of a novel learning framework with a robust loss underpinned by constrained distributionally robust optimization (DRO), and a properly designed TempNet with theoretical inspiration. TempNet can be trained together with a large foundation model from scratch or learned separately given a pretrained foundation model. It is not only useful for predicting personalized temperature to promote the training of LFMs but also generalizable and transferable to new tasks. Our experiments on LLMs and CLIP models demonstrate that TempNet greatly improves the performance of existing solutions or models, e.g. Table 1. The code to reproduce the experimental results in this paper can be found at https://github.com/zhqiu/TempNet.
- Abstract(参考訳): 温度パラメータは、大きな言語モデル(LLM)やCLIPモデルのような大きな基礎モデル(LFM)によるトレーニングおよび/または推論において重要な役割を果たす。
特に、次のトークン生成に不可欠であるLSMのソフトマックス関数のロジットを調整し、CLIPモデルのトレーニングにおける対照的な損失の類似性を拡大する。
重要な疑問が残る: LFMを強化するために、入力データのパーソナライズされた温度を予測するためにニューラルネットワークを学ぶことは可能か?
本稿では,小型だが一般化可能な温度予測ネットワーク(TempNet)を学習し,LFMを改善するためのフレームワークを提案する。
提案手法は,制約付き分散ロバスト最適化(DRO)に基づくロバストな損失を持つ新しい学習フレームワークと,理論的なインスピレーションを備えたTempNetから構成される。
TempNetは、スクラッチから大きなファンデーションモデルと一緒にトレーニングするか、事前訓練されたファンデーションモデルから別々に学習することができる。
LFMのトレーニングを促進するためにパーソナライズされた温度を予測するだけでなく、新しいタスクへの一般化と転送も可能である。
LLMとCLIPモデルに関する我々の実験は、TempNetが既存のソリューションやモデルの性能を大幅に改善することを示した。
この論文で実験結果を再現するコードはhttps://github.com/zhqiu/TempNet.comにある。
関連論文リスト
- Save It All: Enabling Full Parameter Tuning for Federated Large Language Models via Cycle Block Gradient Descent [15.463595798992621]
大規模言語モデル(LLM)はディープラーニングパラダイムに革命をもたらし、幅広いタスクで印象的な結果をもたらしている。
既存のソリューションは、モデル全体がトレーニングのために交換されるという非現実的な仮定を定めている。
本稿では,資源消費を最小限に抑えつつ,FLにおけるLLMの効率的なトレーニングと微調整を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T03:49:44Z) - A Survey on Efficient Federated Learning Methods for Foundation Model
Training [66.19763977571114]
フェデレーテッド・ラーニング(FL)は、多数のクライアントにわたるプライバシー保護協調トレーニングを促進するための確立した技術となっている。
Foundation Models (FM)の後、多くのディープラーニングアプリケーションでは現実が異なる。
FLアプリケーションに対するパラメータ効率細調整(PEFT)の利点と欠点について論じる。
論文 参考訳(メタデータ) (2024-01-09T10:22:23Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - An Expectation-Maximization Perspective on Federated Learning [75.67515842938299]
フェデレーション学習は、データをデバイス上でプライベートにしながら、複数のクライアントにわたるモデルの分散トレーニングを記述する。
本稿では,サーバがクライアント固有のモデルパラメータに対して事前分布のパラメータを提供する階層的潜在変数モデルとして,サーバが設定したフェデレーション学習プロセスについて考察する。
我々は,単純なガウス先行とよく知られた期待最大化(EM)アルゴリズムのハードバージョンを用いて,そのようなモデルの学習は,フェデレーション学習環境における最も一般的なアルゴリズムであるFedAvgに対応することを示す。
論文 参考訳(メタデータ) (2021-11-19T12:58:59Z) - A Sequential Modelling Approach for Indoor Temperature Prediction and
Heating Control in Smart Buildings [4.759925918369102]
本稿では,室内温度の予測にデータ駆動統計手法を逐次適用するための学習ベースフレームワークを提案する。
実験では、モデリングアプローチと制御アルゴリズムの有効性を実証し、スマートビルディングアプリケーションにおける混合データ駆動アプローチの有望な可能性を明らかにする。
論文 参考訳(メタデータ) (2020-09-21T13:20:27Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。