論文の概要: Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis
- arxiv url: http://arxiv.org/abs/2605.26655v1
- Date: Tue, 26 May 2026 07:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.734294
- Title: Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis
- Title(参考訳): プロンプト最適化が機能する理由と、なぜそうでないのか:因果関係の編集レベル分析
- Authors: Shuzhi Gong, Hechuan Wen,
- Abstract要約: 自動プロンプト最適化手法は、大規模言語モデル(LLM)の性能を大幅に向上させることができる。
実際には、あるベンチマークで最適化されたプロンプトの優位性は、しばしば別のベンチマークへの転送に失敗する。
- 参考スコア(独自算出の注目度): 0.8716913598251385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated prompt optimization methods (e.g., DSpy, TextGrad) can substantially improve the performance of large language model (LLM), however, their generalization ability across different tasks remains underperformed. In practice, the superiority of the optimized prompt on one benchmark often fails to transfer to another, and this limitation persists even when switching across different LLM backbones. To investigate the underexplored sources of heterogeneity in prompt performance, we conduct a causal inference-inspired observational analysis of optimized prompts across a diverse set of optimization frameworks, LLM backbones, and NLP benchmarks. To achieve the goal, we build upon the propensity-adjusted associational analysis together with multiple complementary representations of prompt edits, where the consistent task-conditioned edits patterns are identified. We find that complexity-increasing and meta-instructional edits are negatively associated with mathematical and multi-hop reasoning performance, whereas step-by-step and meta-cognitive edits improve logical and sequential reasoning tasks. These effects are robust across cognitive-load annotations, surface-level text features, and edit-motif analyses, and can generalize across optimization frameworks. Overall, these results indicate that prompt optimization failures arise from systematic interactions between edit families and task characteristics rather than random optimization artifacts, providing feature-level characterization of optimizer behavior and motivating future task-conditioned optimizer design.
- Abstract(参考訳): 自動的なプロンプト最適化手法(例えば、DSpy、TextGrad)は、大規模言語モデル(LLM)の性能を大幅に向上させることができるが、それらの様々なタスクに対する一般化能力は、まだ性能が低いままである。
実際には、あるベンチマークで最適化されたプロンプトの優位性は、しばしば別のベンチマークへの転送に失敗し、この制限は異なるLCMバックボーンを切り替えても持続する。
提案手法は, 最適化フレームワーク, LLMバックボーン, NLPベンチマークを対象とし, 最適化プロンプトの因果推論に基づく観察分析を行う。
この目的を達成するために,提案手法は,一貫したタスク条件付き編集パターンを識別するプロンプト編集の複数の補完表現とともに,確率調整型関連解析に基づいて構築される。
複雑性の増大とメタインストラクショナルな編集は数学的およびマルチホップ推論のパフォーマンスに負の相関があるのに対し、ステップバイステップとメタ認知的な編集は論理的およびシーケンシャルな推論タスクを改善する。
これらのエフェクトは、認知負荷アノテーション、表面レベルのテキスト機能、編集モチーフ分析の間で堅牢であり、最適化フレームワーク全体にわたって一般化することができる。
これらの結果から, ランダムな最適化アーティファクトではなく, 編集ファミリとタスク特性の体系的相互作用から, 迅速な最適化失敗が生じることが示唆された。
関連論文リスト
- Co-evolving Agent Architectures and Interpretable Reasoning for Automated Optimization [6.428928591765431]
大規模言語モデル(LLM)を用いた操作研究は、手作業による推論によって制限されている。
自動最適化のための共進化的フレームワークであるEvoOR-Agentを提案する。
ケーススタディとアブレーション分析は、明示的なアーキテクチャ進化とグラフによる推論-軌道探索が、性能改善と構造的解釈可能性の両方に寄与していることを示している。
論文 参考訳(メタデータ) (2026-04-20T01:44:18Z) - Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization [6.3914079241545885]
提案するCRPO(Contrastive Reasoning Prompt Optimization)は,検索強化推論プロセスとして迅速な最適化を定式化する新しいフレームワークである。
提案手法では,HelpSteer2データセットからトップk参照プロンプト-レスポンスペアを検索する。
CRPOは、高品位と低品位を明示的に対比することにより、あるプロンプトが成功する理由を推論し、他のプロンプトが失敗する理由を推測することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T08:45:29Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。