論文の概要: Evaluating the Effectiveness of Black-Box Prompt Optimization as the Scale of LLMs Continues to Grow
- arxiv url: http://arxiv.org/abs/2505.08303v1
- Date: Tue, 13 May 2025 07:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.474054
- Title: Evaluating the Effectiveness of Black-Box Prompt Optimization as the Scale of LLMs Continues to Grow
- Title(参考訳): LLMの規模拡大に伴うブラックボックスプロンプト最適化の有効性評価
- Authors: Ziyu Zhou, Yihang Wu, Jingyuan Yang, Zhan Xiao, Rongjun Li,
- Abstract要約: 大規模言語モデル(LLM)の整合性を高めるために入力プロンプトを精算するための有望な戦略としてブラックボックスプロンプト最適化法が登場した。
3つの有名なブラックボックス最適化手法を評価し、4つのNLUおよびNLGデータセットにわたる大規模LCM(DeepSeek V3およびGemini 2.0 Flash)で評価する。
その結果、これらのブラックボックスプロンプト最適化手法は、これらの大規模LLMに対して限定的な改善しか提供しないことがわかった。
- 参考スコア(独自算出の注目度): 4.103752347872491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Black-Box prompt optimization methods have emerged as a promising strategy for refining input prompts to better align large language models (LLMs), thereby enhancing their task performance. Although these methods have demonstrated encouraging results, most studies and experiments have primarily focused on smaller-scale models (e.g., 7B, 14B) or earlier versions (e.g., GPT-3.5) of LLMs. As the scale of LLMs continues to increase, such as with DeepSeek V3 (671B), it remains an open question whether these black-box optimization techniques will continue to yield significant performance improvements for models of such scale. In response to this, we select three well-known black-box optimization methods and evaluate them on large-scale LLMs (DeepSeek V3 and Gemini 2.0 Flash) across four NLU and NLG datasets. The results show that these black-box prompt optimization methods offer only limited improvements on these large-scale LLMs. Furthermore, we hypothesize that the scale of the model is the primary factor contributing to the limited benefits observed. To explore this hypothesis, we conducted experiments on LLMs of varying sizes (Qwen 2.5 series, ranging from 7B to 72B) and observed an inverse scaling law, wherein the effectiveness of black-box optimization methods diminished as the model size increased.
- Abstract(参考訳): Black-Boxのプロンプト最適化手法は、入力プロンプトを改良し、大きな言語モデル(LLM)の整合性を向上し、タスク性能を向上させるための有望な戦略として登場した。
これらの手法は奨励効果を示してきたが、ほとんどの研究や実験はLLMの小型モデル(例: 7B, 14B)やそれ以前のバージョン(例: GPT-3.5)に重点を置いている。
DeepSeek V3 (671B) など LLM のスケールが拡大するにつれて、これらのブラックボックス最適化技術がそのようなスケールのモデルに対して大きなパフォーマンス向上をもたらすかどうかという疑問が残る。
これに応じて、よく知られた3つのブラックボックス最適化手法を選択し、4つのNLUおよびNLGデータセットにわたる大規模LCM(DeepSeek V3およびGemini 2.0 Flash)で評価する。
その結果、これらのブラックボックスプロンプト最適化手法は、これらの大規模LLMに対して限定的な改善しか得られないことがわかった。
さらに,観測された利益の限界に寄与する要因として,モデルのスケールが主要因である,という仮説を立てた。
この仮説を探索するため,異なるサイズ (Qwen 2.5 シリーズ 7B から72B まで) の LLM 実験を行い,逆スケーリング法則を観察し,モデルサイズが大きくなるにつれてブラックボックス最適化手法の有効性が低下した。
関連論文リスト
- A Survey of Calibration Process for Black-Box LLMs [32.911426143682334]
大規模言語モデル(LLM)は意味理解と生成において顕著な性能を示す。
出力の信頼性を正確に評価することは 重要な課題です
Black-Box LLMは、APIのみのインタラクション制約のため、キャリブレーションテクニックの要求が高められている。
論文 参考訳(メタデータ) (2024-12-17T10:31:21Z) - Scattered Forest Search: Smarter Code Space Exploration with LLMs [55.71665969800222]
進化的探索において,解の多様性を向上し,フィードバックを有効活用する新しい手法であるSCATTERED FOREST SEARCH(SFS)を提案する。
本手法は,木探索,線探索,繰り返しサンプリングなど,既存の探索手法よりも効率よくスケールする。
論文 参考訳(メタデータ) (2024-10-22T01:58:29Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Large Language Model-Based Evolutionary Optimizer: Reasoning with
elitism [1.1463861912335864]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
本稿では,LLMが様々なシナリオにまたがるゼロショット最適化能力を有していることを主張する。
LLMを用いた数値最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T13:57:37Z) - Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。
この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文 参考訳(メタデータ) (2024-02-02T06:29:34Z) - DeepSeek LLM: Scaling Open-Source Language Models with Longtermism [76.90033862238728]
本稿では,2つのオープンソース構成である7Bと67Bにおける大規模モデルのスケーリングを容易にすることについて述べる。
スケーリング法則によってガイドされたDeepSeek LLMは、長期的視点でオープンソースの言語モデルを進化させるためのプロジェクトです。
論文 参考訳(メタデータ) (2024-01-05T18:59:13Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。