論文の概要: Cost-Effective Hyperparameter Optimization for Large Language Model
Generation Inference
- arxiv url: http://arxiv.org/abs/2303.04673v1
- Date: Wed, 8 Mar 2023 15:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-03-09 13:17:58.701675
- Title: Cost-Effective Hyperparameter Optimization for Large Language Model
Generation Inference
- Title(参考訳): 大規模言語モデル生成推論のためのコスト効果ハイパーパラメータ最適化
- Authors: Chi Wang, Susan Xueqing Liu, Ahmed H. Awadallah
- Abstract要約: GPT-3のような大規模言語モデル(LLM)は、その生成能力に大きな関心を惹き付け、様々な商用アプリケーションの開発に繋がった。
モデルを使用することのコストが高いため、アプリケーションビルダーは限られた推論予算の下で世代価値を最大化することができる。
本稿では,応答数,温度,最大トークン数などの高次パラメータを最適化する手法を提案する。
- 参考スコア(独自算出の注目度): 17.458292092103036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) like GPT-3 have sparked significant interest in
their generative capabilities, leading to the development of various commercial
applications. The high cost of using the models drives application builders to
maximize the value of generation under a limited inference budget. This paper
presents a study of optimizing inference hyperparameters like the number of
responses, temperature and max tokens, which significantly affects the
utility/cost of text generation. We design a framework named EcoOptiGen which
leverages economical hyperparameter optimization and cost-based pruning.
Experiments with the latest GPT-3.5 models on a variety of tasks verify its
effectiveness. EcoOptiGen is implemented in the FLAML library:
https://github.com/microsoft/FLAML, and we provide one example of using it at:
https://microsoft.github.io/FLAML/docs/Examples/Integrate%20-%20OpenAI.
- Abstract(参考訳): GPT-3のような大規模言語モデル(LLM)は、その生成能力に大きな関心を惹き付け、様々な商用アプリケーションの開発につながった。
モデルを使用することのコストが高いため、アプリケーションビルダーは限られた推論予算の下で世代価値を最大化することができる。
本稿では,テキスト生成の実用/コストに大きな影響を及ぼす応答数,温度,最大トークンなどの推定ハイパーパラメータの最適化について検討する。
経済的なハイパーパラメータ最適化とコストベースプルーニングを活用したEcoOptiGenというフレームワークを設計する。
様々なタスクにおける最新のGPT-3.5モデルによる実験は、その有効性を検証する。
EcoOptiGenはFLAMLライブラリで実装されている。 https://github.com/microsoft/FLAML。
関連論文リスト
- Extending $μ$P: Spectral Conditions for Feature Learning Across Optimizers [3.5708391029226885]
本稿では,AdamW, AD, LAMB, Sophia, Shampoo, Muon など,より広範な派生のクラスに対して$P を導出する新しいフレームワークを提案する。
我々は、複数のベンチマークモデルに$Psを実装し、モデル幅の増大にまたがるゼロショット学習率の伝達を示す。
論文 参考訳(メタデータ) (2026-02-24T14:17:51Z) - Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data [57.996437077411315]
計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。
我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。
NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-16T07:09:30Z) - High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices [0.0]
本稿では,エージェントタスク(機能/ツール/API呼び出し)における小言語モデル(SLM)の有効性について検討する。
本稿では、教師付き微調整(SFT)、パラメータ効率の高い微調整(PEFT)、強化学習(RL)、ハイブリッド手法を含むパラメータ駆動最適化戦略について述べる。
その結果,中規模モデル(1-3Bパラメータ)がウルトラコンパクトモデル(1Bパラメータ)を大幅に上回るモデルスケール間での精度差が明らかとなった。
この研究は、エッジデバイス上で、小さな言語モデルが正確で効率的で安定したエージェントAIを提供できるようにするためのハイブリッド最適化戦略の重要性を強調した。
論文 参考訳(メタデータ) (2025-11-27T06:09:54Z) - Cost-Sensitive Freeze-thaw Bayesian Optimization for Efficient Hyperparameter Tuning [51.6191275658441]
コストと性能のトレードオフを記述する関数であるフリーズソーフレームワークで,エフェユーティリティを導入する。
我々は,提案アルゴリズムを確立されたマルチ忠実HPOベンチマークで検証し,従来のフリーズソーBOやTransfer-BOベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-10-24T12:03:57Z) - Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。
この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines [6.381783966294295]
オープンソースの大規模言語モデル(LLM)により、開発者はプライバシやコンプライアンスといった側面をコントロールしながら、AIベースのソリューションを作成できる。
我々は、vLLMとHuggingFaceのパイプラインという2つの推論ライブラリを使用して、20LLMのパフォーマンス、特にスループット(時間単位毎に生成されるトークン)を分析します。
論文 参考訳(メタデータ) (2024-08-02T06:56:59Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Cost-Sensitive Multi-Fidelity Bayesian Optimization with Transfer of Learning Curve Extrapolation [55.75188191403343]
各ユーザが事前に定義した機能であるユーティリティを導入し,BOのコストと性能のトレードオフについて述べる。
このアルゴリズムをLCデータセット上で検証した結果,従来のマルチファイルBOや転送BOベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-05-28T07:38:39Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - Can pruning make Large Language Models more efficient? [0.0]
本稿では,トランスフォーマーアーキテクチャの最適化戦略として,ウェイトプルーニングの適用について検討する。
以上の結果から,モデルサイズの大幅な削減は,性能にかなりの妥協を伴わずに達成できることが示唆された。
この作業は、モデル効率とパフォーマンスのギャップを埋め、よりスケーラブルで環境に責任のあるディープラーニングアプリケーションへの道を開くことを目的としています。
論文 参考訳(メタデータ) (2023-10-06T20:28:32Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - HyperTuning: Toward Adapting Large Language Models without
Back-propagation [41.402342404690835]
固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いたモデル適応手法を提案する。
したがってHyperTuningは、さまざまなダウンストリームアプリケーションに大規模な言語モデルを活用するための、柔軟で効率的な方法である。
論文 参考訳(メタデータ) (2022-11-22T18:52:25Z) - Automated Few-Shot Time Series Forecasting based on Bi-level Programming [5.760976250387322]
本稿では,バイレベルプログラミングの観点から,数発の学習パイプラインの最適設計を自動化するBiLO-Auto-TSF/MLフレームワークを開発する。
提案したBiLO-Auto-TSF/MLフレームワークの有効性を総合的に検証した。
論文 参考訳(メタデータ) (2022-03-07T12:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。