論文の概要: Cost-Effective Hyperparameter Optimization for Large Language Model
Generation Inference
- arxiv url: http://arxiv.org/abs/2303.04673v1
- Date: Wed, 8 Mar 2023 15:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:17:58.701675
- Title: Cost-Effective Hyperparameter Optimization for Large Language Model
Generation Inference
- Title(参考訳): 大規模言語モデル生成推論のためのコスト効果ハイパーパラメータ最適化
- Authors: Chi Wang, Susan Xueqing Liu, Ahmed H. Awadallah
- Abstract要約: GPT-3のような大規模言語モデル(LLM)は、その生成能力に大きな関心を惹き付け、様々な商用アプリケーションの開発に繋がった。
モデルを使用することのコストが高いため、アプリケーションビルダーは限られた推論予算の下で世代価値を最大化することができる。
本稿では,応答数,温度,最大トークン数などの高次パラメータを最適化する手法を提案する。
- 参考スコア(独自算出の注目度): 17.458292092103036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) like GPT-3 have sparked significant interest in
their generative capabilities, leading to the development of various commercial
applications. The high cost of using the models drives application builders to
maximize the value of generation under a limited inference budget. This paper
presents a study of optimizing inference hyperparameters like the number of
responses, temperature and max tokens, which significantly affects the
utility/cost of text generation. We design a framework named EcoOptiGen which
leverages economical hyperparameter optimization and cost-based pruning.
Experiments with the latest GPT-3.5 models on a variety of tasks verify its
effectiveness. EcoOptiGen is implemented in the FLAML library:
https://github.com/microsoft/FLAML, and we provide one example of using it at:
https://microsoft.github.io/FLAML/docs/Examples/Integrate%20-%20OpenAI.
- Abstract(参考訳): GPT-3のような大規模言語モデル(LLM)は、その生成能力に大きな関心を惹き付け、様々な商用アプリケーションの開発につながった。
モデルを使用することのコストが高いため、アプリケーションビルダーは限られた推論予算の下で世代価値を最大化することができる。
本稿では,テキスト生成の実用/コストに大きな影響を及ぼす応答数,温度,最大トークンなどの推定ハイパーパラメータの最適化について検討する。
経済的なハイパーパラメータ最適化とコストベースプルーニングを活用したEcoOptiGenというフレームワークを設計する。
様々なタスクにおける最新のGPT-3.5モデルによる実験は、その有効性を検証する。
EcoOptiGenはFLAMLライブラリで実装されている。 https://github.com/microsoft/FLAML。
関連論文リスト
- Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer
Learning for Point Cloud Analysis [53.70588957376317]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - LLM can Achieve Self-Regulation via Hyperparameter Aware Generation [88.69052513433603]
大規模言語モデル (LLM) は、生成されたテキストを制御するために様々な復号法を用いる。
LLMはこれらのデコード戦略の存在を意識し、自己統制できるのか?
ハイパーパラメータ・アウェア・ジェネレーション(HAG)と呼ばれる新しいテキスト生成パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T11:18:22Z) - Optimal Hyperparameter $\epsilon$ for Adaptive Stochastic Optimizers
through Gradient Histograms [0.8702432681310399]
属性適応を解析・正当化するための勾配ヒストグラムに基づく新しいフレームワークを提案する。
そこで本稿では,セーフガード係数$epsilon$に対する縮小された正確な探索空間を自動的に推定する,勾配ヒストグラムに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Can pruning make Large Language Models more efficient? [0.0]
本稿では,トランスフォーマーアーキテクチャの最適化戦略として,ウェイトプルーニングの適用について検討する。
以上の結果から,モデルサイズの大幅な削減は,性能にかなりの妥協を伴わずに達成できることが示唆された。
この作業は、モデル効率とパフォーマンスのギャップを埋め、よりスケーラブルで環境に責任のあるディープラーニングアプリケーションへの道を開くことを目的としています。
論文 参考訳(メタデータ) (2023-10-06T20:28:32Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - HyperTuning: Toward Adapting Large Language Models without
Back-propagation [41.402342404690835]
固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いたモデル適応手法を提案する。
したがってHyperTuningは、さまざまなダウンストリームアプリケーションに大規模な言語モデルを活用するための、柔軟で効率的な方法である。
論文 参考訳(メタデータ) (2022-11-22T18:52:25Z) - Automated Few-Shot Time Series Forecasting based on Bi-level Programming [5.760976250387322]
本稿では,バイレベルプログラミングの観点から,数発の学習パイプラインの最適設計を自動化するBiLO-Auto-TSF/MLフレームワークを開発する。
提案したBiLO-Auto-TSF/MLフレームワークの有効性を総合的に検証した。
論文 参考訳(メタデータ) (2022-03-07T12:15:14Z) - The Role of Adaptive Optimizers for Honest Private Hyperparameter
Selection [12.38071940409141]
標準合成ツールは、多くの設定において、より高度な技術よりも優れていることを示す。
我々は、新しいより効率的なツールを設計するために、DP設定におけるAdamの制限的な振る舞いを描きます。
論文 参考訳(メタデータ) (2021-11-09T01:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。