論文の概要: You Don't Need Prompt Engineering Anymore: The Prompting Inversion
- arxiv url: http://arxiv.org/abs/2510.22251v1
- Date: Sat, 25 Oct 2025 11:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.00041
- Title: You Don't Need Prompt Engineering Anymore: The Prompting Inversion
- Title(参考訳): プロンプト・エンジニアリングは必要ない。プロンプト・インバージョン
- Authors: Imran Khan,
- Abstract要約: Sculptingは、標準CoTを改善するために設計された制約付きルールベースのプロンプト手法である。
3つのOpenAIモデル世代にわたる3つのプロンプト戦略を評価する。
- 参考スコア(独自算出の注目度): 0.3946915822335988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt engineering, particularly Chain-of-Thought (CoT) prompting, significantly enhances LLM reasoning capabilities. We introduce "Sculpting," a constrained, rule-based prompting method designed to improve upon standard CoT by reducing errors from semantic ambiguity and flawed common sense. We evaluate three prompting strategies (Zero Shot, standard CoT, and Sculpting) across three OpenAI model generations (gpt-4o-mini, gpt-4o, gpt-5) using the GSM8K mathematical reasoning benchmark (1,317 problems). Our findings reveal a "Prompting Inversion": Sculpting provides advantages on gpt-4o (97% vs. 93% for standard CoT), but becomes detrimental on gpt-5 (94.00% vs. 96.36% for CoT on full benchmark). We trace this to a "Guardrail-to-Handcuff" transition where constraints preventing common-sense errors in mid-tier models induce hyper-literalism in advanced models. Our detailed error analysis demonstrates that optimal prompting strategies must co-evolve with model capabilities, suggesting simpler prompts for more capable models.
- Abstract(参考訳): プロンプトエンジニアリング、特にCoT(Chain-of-Thought)はLSM推論能力を著しく向上させる。
本稿では,制約付きルールベースのプロンプト手法であるSculptingを導入する。
GSM8K数理推論ベンチマーク(1,317問題)を用いて,OpenAIモデル世代(gpt-4o-mini,gpt-4o,gpt-5)の3つのプロンプト戦略(Zero Shot,標準CoT,Sculpting)を評価した。
Sculptingはgpt-4o(標準CoTでは97%、標準CoTでは93%)の利点を提供するが、gpt-5では有害になる(フルベンチマークでは94.00%、CoTでは96.36%)。
我々はこれを"Guardrail-to-Handcuff"遷移(Guardrail-to-Handcuff)に遡る。
我々の詳細なエラー分析は、最適なプロンプト戦略はモデル機能と共進化する必要があることを示しており、より有能なモデルに対するより単純なプロンプトを示唆している。
関連論文リスト
- Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting [0.0]
Chain-of-Thought(CoT)プロンプトは,大規模言語モデルに“ステップバイステップ”を推奨するテクニックである。
CoTプロンプトの有効性はタスクの種類やモデルによって大きく異なる。
明確な推論能力を持つモデルの場合、CoTのプロンプトは答えの正確性に限界があるだけである。
論文 参考訳(メタデータ) (2025-06-08T13:41:25Z) - Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting [28.537281448659634]
本稿では,性能損失を伴わない推論トレースを動的に短縮するDAP法を提案する。
実験では、難解なCoTサンプルの100Kだけを微調整した学生モデルが800KのLong CoTサンプルで蒸留されたモデルより優れている。
また,本手法は,11種類の多種多様なベンチマークにおいて,比較的少ないトークンを用いて,長鎖よりも短い難易度CoTの精度を向上する。
論文 参考訳(メタデータ) (2025-05-26T09:04:44Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates [51.633266497799745]
思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
論文 参考訳(メタデータ) (2025-02-10T18:51:47Z) - Markovian Transformers for Informative Language Modeling [1.172865818448696]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
推論オートエンコーダとして理解可能なマルコフ言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショット CoT と少数ショット CoT を超越する。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z) - Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T00:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。