論文の概要: Cost-Effective Hyperparameter Optimization for Large Language Model
Generation Inference
- arxiv url: http://arxiv.org/abs/2303.04673v2
- Date: Tue, 8 Aug 2023 18:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:58:53.974542
- Title: Cost-Effective Hyperparameter Optimization for Large Language Model
Generation Inference
- Title(参考訳): 大規模言語モデル生成推論のためのコスト効果ハイパーパラメータ最適化
- Authors: Chi Wang, Susan Xueqing Liu, Ahmed H. Awadallah
- Abstract要約: 大規模言語モデル(LLM)は、その生成能力に大きな関心を喚起し、様々な商用アプリケーションの開発に繋がった。
モデルを使用することのコストが高いため、アプリケーションビルダーは限られた推論予算の下で世代価値を最大化することができる。
本稿では,テキスト生成の有用性とコストに大きく影響する推論ハイパーパラメータの最適化について検討する。
- 参考スコア(独自算出の注目度): 17.458292092103036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have sparked significant interest in their
generative capabilities, leading to the development of various commercial
applications. The high cost of using the models drives application builders to
maximize the value of generation under a limited inference budget. This paper
presents a study of optimizing inference hyperparameters such as the number of
responses, temperature and max tokens, which significantly affects the
utility/cost of text generation. We design a framework named EcoOptiGen which
leverages economical hyperparameter optimization and cost-based pruning.
Experiments with the GPT-3.5/GPT-4 models on a variety of tasks verify its
effectiveness. EcoOptiGen is implemented in the `autogen' package of the FLAML
library: \url{https://aka.ms/autogen}.
- Abstract(参考訳): 大きな言語モデル(LLM)は、その生成能力に大きな関心を惹き付け、様々な商用アプリケーションの開発につながった。
モデルを使用することのコストが高いため、アプリケーションビルダーは限られた推論予算の下で世代価値を最大化することができる。
本稿では,テキスト生成の有用性とコストに大きな影響を及ぼす応答数,温度,最大トークンなどの推定ハイパーパラメータの最適化について検討する。
経済的なハイパーパラメータ最適化とコストベースプルーニングを活用したEcoOptiGenというフレームワークを設計する。
GPT-3.5/GPT-4モデルを様々なタスクで実験し、その有効性を検証する。
EcoOptiGen は FLAML ライブラリの ‘autogen' パッケージで実装されている。
関連論文リスト
- Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines [6.381783966294295]
オープンソースの大規模言語モデル(LLM)により、開発者はプライバシやコンプライアンスといった側面をコントロールしながら、AIベースのソリューションを作成できる。
我々は、vLLMとHuggingFaceのパイプラインという2つの推論ライブラリを使用して、20LLMのパフォーマンス、特にスループット(時間単位毎に生成されるトークン)を分析します。
論文 参考訳(メタデータ) (2024-08-02T06:56:59Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Cost-Sensitive Multi-Fidelity Bayesian Optimization with Transfer of Learning Curve Extrapolation [55.75188191403343]
各ユーザが事前に定義した機能であるユーティリティを導入し,BOのコストと性能のトレードオフについて述べる。
このアルゴリズムをLCデータセット上で検証した結果,従来のマルチファイルBOや転送BOベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-05-28T07:38:39Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - Can pruning make Large Language Models more efficient? [0.0]
本稿では,トランスフォーマーアーキテクチャの最適化戦略として,ウェイトプルーニングの適用について検討する。
以上の結果から,モデルサイズの大幅な削減は,性能にかなりの妥協を伴わずに達成できることが示唆された。
この作業は、モデル効率とパフォーマンスのギャップを埋め、よりスケーラブルで環境に責任のあるディープラーニングアプリケーションへの道を開くことを目的としています。
論文 参考訳(メタデータ) (2023-10-06T20:28:32Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - HyperTuning: Toward Adapting Large Language Models without
Back-propagation [41.402342404690835]
固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いたモデル適応手法を提案する。
したがってHyperTuningは、さまざまなダウンストリームアプリケーションに大規模な言語モデルを活用するための、柔軟で効率的な方法である。
論文 参考訳(メタデータ) (2022-11-22T18:52:25Z) - Automated Few-Shot Time Series Forecasting based on Bi-level Programming [5.760976250387322]
本稿では,バイレベルプログラミングの観点から,数発の学習パイプラインの最適設計を自動化するBiLO-Auto-TSF/MLフレームワークを開発する。
提案したBiLO-Auto-TSF/MLフレームワークの有効性を総合的に検証した。
論文 参考訳(メタデータ) (2022-03-07T12:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。