論文の概要: The Unreasonable Effectiveness of Eccentric Automatic Prompts
- arxiv url: http://arxiv.org/abs/2402.10949v2
- Date: Tue, 20 Feb 2024 15:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:01:25.729144
- Title: The Unreasonable Effectiveness of Eccentric Automatic Prompts
- Title(参考訳): 偏心型自動プロンプトの理不尽な効果
- Authors: Rick Battle and Teja Gollapudi
- Abstract要約: 大規模言語モデル(LLM)は、目覚ましい問題解決と基本的な計算能力を示している。
本研究は,プロンプトのシステムメッセージに「肯定的思考」を取り入れた影響を定量化する試みである。
次に、最適「肯定的思考」プロンプトの性能を、系統的プロンプト最適化の出力と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable problem-solving and
basic mathematics abilities. However, their efficacy is highly contingent on
the formulation of the prompt. This study endeavors to quantify the influence
of incorporating "positive thinking" into the system message of the prompt,
then compare that to systematic prompt optimization. We assess the performance
of 60 combinations of system message snippets, tested with and without Chain of
Thought prompting, across three models with parameters ranging from 7 to 70
billion on the GSM8K dataset. Our findings reveal that results do not
universally generalize across models. In most instances, the inclusion of
"positive thinking" prompts positively affected model performance. Notably,
however, Llama2-70B exhibited an exception when not utilizing Chain of Thought,
as the optimal system message was found to be none at all. Given the
combinatorial complexity, and thus computation time, of experimenting with
hand-tuning prompts for large black-box models, we then compared the
performance of the best "positive thinking" prompt against the output of
systematic prompt optimization. We show that employing an automated prompt
optimizer emerges as the most effective method for enhancing performance, even
when working with smaller open-source models. Additionally, our findings reveal
that the highest-scoring, automatically-optimized prompt exhibits a degree of
peculiarity far beyond expectations.
- Abstract(参考訳): 大規模言語モデル(llm)は驚くべき問題解決と基本的な数学能力を示している。
しかし、それらの効果はプロンプトの定式化に強く依存している。
本研究は,プロンプトのシステムメッセージに「肯定的思考」を取り入れた影響を定量化し,それをシステマティックなプロンプト最適化と比較する。
gsm8kデータセット上で7~70億のパラメータを持つ3つのモデルに対して,システムメッセージスニペットの60組み合わせのパフォーマンスを評価し,思考プロンプトの連鎖の有無をテストした。
以上の結果から,結果がモデル間で普遍的に一般化しないことが明らかとなった。
ほとんどのケースでは、"ポジティブシンキング"の導入はモデルパフォーマンスに肯定的な影響を与えます。
しかし、特にLlama2-70Bは、最適なシステムメッセージが全くないとして、Chain of Thoughtを使わない場合に例外を示した。
大規模なブラックボックスモデルに対して手動操作のプロンプトを実験する場合の組合せ複雑性と計算時間を考慮し、最適「ポジティブ思考」プロンプトの性能を系統的なプロンプト最適化の出力と比較した。
より小さなオープンソースモデルで作業する場合であっても,自動プロンプトオプティマイザの導入がパフォーマンス向上の最も効果的な方法であることを示す。
さらに,最も高いスコア付け,自動最適化プロンプトは,期待以上の特異性を示すことが明らかとなった。
関連論文リスト
- Has My System Prompt Been Used? Large Language Model Prompt Membership Inference [56.20586932251531]
Prompt Detectiveは,システムプロンプトがサードパーティの言語モデルによって使用されているかどうかを確実に判断する統計手法である。
我々の研究は、システムの小さな変更でさえ、異なる応答分布に現れ、統計的に意味のある迅速な使用を検証できることを明らかにした。
論文 参考訳(メタデータ) (2025-02-14T08:00:42Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Hyperband-based Bayesian Optimization for Black-box Prompt Selection [15.756224286651237]
下流タスクにおける大規模言語モデル(LLM)のパフォーマンスを最大化するためには、最適なプロンプト選択が不可欠である。
我々は、ブラックボックスプロンプト選択のための新しいハイパバンドベースのベイズ最適化手法であるHbBoPsを紹介する。
提案手法では,マルチファイダリティスケジューラとしてHyperbandを用いて,構造を意識したディープカーネルガウス処理を用いて,プロンプト性能をモデル化する。
論文 参考訳(メタデータ) (2024-12-10T14:42:51Z) - SPRIG: Improving Large Language Model Performance by System Prompt Optimization [45.96513122345295]
大きな言語モデル(LLM)は多くのシナリオで印象的な機能を示しているが、そのパフォーマンスはプロンプトの選択に依存している。
本研究では,モデルの性能を最大化するために,既定成分からのプロンプトを反復的に構築する編集に基づく遺伝的アルゴリズムであるSPRIGを提案する。
47種類のタスクの集合に対して,システムプロンプトの性能を評価し,一般化性を確保する。
論文 参考訳(メタデータ) (2024-10-18T18:51:44Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Mothman at SemEval-2024 Task 9: An Iterative System for Chain-of-Thought Prompt Optimization [0.0]
BrainTeaserは、横方向の思考に関するタスクテストを共有し、暗記を防ぐために敵のデータセットを使用している。
そこで本研究では,人間による評価を用いてプロンプトを最適化する,反復的・連鎖的プロンプトエンジニアリングシステムを提案する。
論文 参考訳(メタデータ) (2024-05-03T23:04:52Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。