論文の概要: Prompt Engineering Large Language Models' Forecasting Capabilities
- arxiv url: http://arxiv.org/abs/2506.01578v1
- Date: Mon, 02 Jun 2025 12:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.743698
- Title: Prompt Engineering Large Language Models' Forecasting Capabilities
- Title(参考訳): Prompt Engineering Large Language Modelsの予測能力
- Authors: Philipp Schoenegger, Cameron R. Jones, Philip E. Tetlock, Barbara Mellers,
- Abstract要約: 最小限のベースラインを超えて予測精度を高めることはめったにない。
いくつかの戦略は精度に強い負の影響を示し、特にベイズ的推論への関与を奨励した。
これらの結果は、予測のような複雑なタスクの文脈では、基本的なプロンプト改善だけでは利得が限られていることを示唆している。
- 参考スコア(独自算出の注目度): 0.9999629695552195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model performance can be improved in a large number of ways. Many such techniques, like fine-tuning or advanced tool usage, are time-intensive and expensive. Although prompt engineering is significantly cheaper and often works for simpler tasks, it remains unclear whether prompt engineering suffices for more complex domains like forecasting. Here we show that small prompt modifications rarely boost forecasting accuracy beyond a minimal baseline. In our first study, we tested 38 prompts across Claude 3.5 Sonnet, Claude 3.5 Haiku, GPT-4o, and Llama 3.1 405B. In our second, we introduced compound prompts and prompts from external sources, also including the reasoning models o1 and o1-mini. Our results show that most prompts lead to negligible gains, although references to base rates yield slight benefits. Surprisingly, some strategies showed strong negative effects on accuracy: especially encouraging the model to engage in Bayesian reasoning. These results suggest that, in the context of complex tasks like forecasting, basic prompt refinements alone offer limited gains, implying that more robust or specialized techniques may be required for substantial performance improvements in AI forecasting.
- Abstract(参考訳): 大規模な言語モデルの性能は、多くの点で改善できる。
微調整や高度なツールの使用など、多くのテクニックは時間集約的で高価である。
迅速なエンジニアリングは極めて安価で、単純なタスクでよく機能するが、予測のようなより複雑なドメインで迅速なエンジニアリングが十分であるかどうかは不明だ。
ここでは、小さなプロンプト修正が、最小限のベースラインを超えて予測精度を高めることは滅多にないことを示す。
最初の研究では、Claude 3.5 Sonnet、Claude 3.5 Haiku、GPT-4o、Llama 3.1 405Bで38のプロンプトを試験した。
第2に, 推論モデルo1とo1-miniを含む外部からの複合プロンプトとプロンプトを導入した。
以上の結果から,ほとんどのプロンプトは無視できる利得につながるが,ベースレートへの言及は若干の利益をもたらすことがわかった。
驚くべきことに、いくつかの戦略は精度に強いネガティブな影響を示しており、特にベイズ的推論への関与を奨励している。
これらの結果は、予測のような複雑なタスクの文脈において、基本的なプロンプト改善だけでは、限られた利得しか得られず、AI予測における実質的なパフォーマンス改善には、より堅牢または専門的な技術が必要であることを示唆している。
関連論文リスト
- Beyond the Next Token: Towards Prompt-Robust Zero-Shot Classification via Efficient Multi-Token Prediction [12.92060812931049]
プロンプトの微妙な変化は、モデルの性能に重大な違いをもたらす可能性がある。
複数位置にわたるトークン確率を予測する新しい手法であるPlaceholding Parallel Prediction (P3)を提案する。
実験では精度が向上し、プロンプト間の標準偏差が最大98%減少した。
論文 参考訳(メタデータ) (2025-04-04T04:39:51Z) - Enhancing Knowledge Distillation for LLMs with Response-Priming Prompting [1.9461727843485295]
そこで本研究では,学生モデルの性能向上のための新しい応答プライシング手法を提案する。
Llama 3.1 405B 教師モデルから知識を抽出し,より小さな Llama 3.1 8B 教師モデルを微調整する。
その結果, 蒸留したLlama 3.1 8BインストラクトのGSM8Kは55%向上した。
論文 参考訳(メタデータ) (2024-12-18T20:41:44Z) - It Is Not About What You Say, It Is About How You Say It: A Surprisingly Simple Approach for Improving Reading Comprehension [0.0]
3つのデータセットにまたがる9つの大きな言語モデルで実験した結果、質問の前にコンテキストを提示することで、モデルのパフォーマンスが向上することがわかった。
さらに、最良のメソッドは驚くほど単純で、入力にいくつかのトークンを連結するだけで、結果として最大36%の精度の改善が得られます。
論文 参考訳(メタデータ) (2024-06-24T16:43:11Z) - Deconstructing In-Context Learning: Understanding Prompts via Corruption [13.37109575313212]
プロンプト全体を4つのコンポーネント(タスク記述、デモインプット、ラベル、インラインインストラクション)に分解する。
分類と生成タスクをカバーする10のデータセットを用いて,1.5Bから70Bのモデルについて検討した。
プロンプト内の繰り返しテキストはモデル性能を向上し、より大きなモデルはプロンプトのセマンティクスに敏感であることがわかった。
論文 参考訳(メタデータ) (2024-04-02T15:50:55Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。