論文の概要: Optimizing Prompts for Large Language Models: A Causal Approach
- arxiv url: http://arxiv.org/abs/2602.01711v1
- Date: Mon, 02 Feb 2026 06:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.95617
- Title: Optimizing Prompts for Large Language Models: A Causal Approach
- Title(参考訳): 大規模言語モデルのためのプロンプトの最適化:因果的アプローチ
- Authors: Wei Chen, Yanbin Fang, Shuran Fu, Fasheng Xu, Xuan Wei,
- Abstract要約: 本稿では,因果推定の問題として設計を即時的に再編成するフレームワークを提案する。
CPOは、人間工学的なプロンプトや最先端の自動化よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 8.091354120300972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly embedded in enterprise workflows, yet their performance remains highly sensitive to prompt design. Automatic Prompt Optimization (APO) seeks to mitigate this instability, but existing approaches face two persistent challenges. First, commonly used prompt strategies rely on static instructions that perform well on average but fail to adapt to heterogeneous queries. Second, more dynamic approaches depend on offline reward models that are fundamentally correlational, confounding prompt effectiveness with query characteristics. We propose Causal Prompt Optimization (CPO), a framework that reframes prompt design as a problem of causal estimation. CPO operates in two stages. First, it learns an offline causal reward model by applying Double Machine Learning (DML) to semantic embeddings of prompts and queries, isolating the causal effect of prompt variations from confounding query attributes. Second, it utilizes this unbiased reward signal to guide a resource-efficient search for query-specific prompts without relying on costly online evaluation. We evaluate CPO across benchmarks in mathematical reasoning, visualization, and data analytics. CPO consistently outperforms human-engineered prompts and state-of-the-art automated optimizers. The gains are driven primarily by improved robustness on hard queries, where existing methods tend to deteriorate. Beyond performance, CPO fundamentally reshapes the economics of prompt optimization: by shifting evaluation from real-time model execution to an offline causal model, it enables high-precision, per-query customization at a fraction of the inference cost required by online methods. Together, these results establish causal inference as a scalable foundation for reliable and cost-efficient prompt optimization in enterprise LLM deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)はますますエンタープライズワークフローに組み込まれている。
自動プロンプト最適化(APO)は、この不安定性を緩和しようとするが、既存のアプローチは2つの永続的な課題に直面している。
まず、一般的に使用されるプロンプト戦略は、平均的にうまく機能するが、不均一なクエリに適応できない静的命令に依存する。
第二に、よりダイナミックなアプローチは、基本的に相関性があり、クエリ特性に即効性を持たせるオフライン報酬モデルに依存する。
本稿では,因果推定の問題として設計をリフレームするフレームワークCausal Prompt Optimization (CPO)を提案する。
CPOは2段階に分かれている。
まず、プロンプトとクエリのセマンティック埋め込みにDouble Machine Learning(DML)を適用することで、オフライン因果報酬モデルを学び、クエリ属性の相違から即時変分による因果効果を分離する。
第二に、この偏見のない報酬信号を使って、費用のかかるオンライン評価に頼ることなく、リソース効率の高いクエリ固有のプロンプトを検索する。
数学的推論、可視化、データ分析において、ベンチマーク間でCPOを評価する。
CPOは、人間工学的なプロンプトと最先端の自動化オプティマイザを一貫して上回っている。
ゲインは主に、既存のメソッドが劣化する傾向にあるハードクエリの堅牢性の改善によって引き起こされる。
リアルタイムモデル実行からオフライン因果モデルに評価をシフトすることで、オンラインメソッドに必要な推論コストのごく一部で、高精度でクエリごとのカスタマイズを可能にします。
これらの結果は,企業LLMデプロイメントにおける信頼性と費用効率のよい迅速な最適化のためのスケーラブルな基盤として因果推論を確立している。
関連論文リスト
- Learning from Prompt itself: the Hierarchical Attribution Prompt Optimization [13.8868879878572]
構造化最適化アプローチでは、改良されたプロンプトを開発するには、自動または半自動の手順が必要である。
現在のプロンプト最適化手法は、しばしばプロンプトドリフトを誘導し、新しいプロンプトが前の障害を修正するが、以前成功したタスクのパフォーマンスを損なう。
本研究では,(1)学習データにおける誤りパターンをターゲットとした動的帰属機構,(2)機能的プロンプトセグメントを編集するための意味単位最適化,(3)エンドツーエンドのLSMとLM-MLLMの両方をサポートするマルチモーダル・フレンドリなプロンプト・プロンプト・フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-06T03:34:17Z) - Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization [6.3914079241545885]
提案するCRPO(Contrastive Reasoning Prompt Optimization)は,検索強化推論プロセスとして迅速な最適化を定式化する新しいフレームワークである。
提案手法では,HelpSteer2データセットからトップk参照プロンプト-レスポンスペアを検索する。
CRPOは、高品位と低品位を明示的に対比することにより、あるプロンプトが成功する理由を推論し、他のプロンプトが失敗する理由を推測することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T08:45:29Z) - GreenTEA: Gradient Descent with Topic-modeling and Evolutionary Auto-prompting [2.085792950847639]
GreenTEAは自動プロンプト最適化のためのエージェントワークフローである。
候補者の探索と知識の搾取のバランスをとる。
エラーサンプルからのフィードバックに基づいてプロンプトを反復的に洗練する。
論文 参考訳(メタデータ) (2025-08-12T06:48:30Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Semantic-Preserving Adversarial Attacks on LLMs: An Adaptive Greedy Binary Search Approach [15.658579092368981]
大規模言語モデル(LLM)は、ユーザ入力を洗練させ、応答精度を向上させるために、グラフィカルユーザインタフェース(GUI)における自動プロンプト工学に依存している。
本稿では, セマンティック安定性を維持しつつ, 共通的なプロンプト最適化機構をシミュレートするアダプティブ・グレディ・バイナリ・サーチ(AGBS)手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:41:06Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。