論文の概要: A Unified Evaluation-Instructed Framework for Query-Dependent Prompt Optimization
- arxiv url: http://arxiv.org/abs/2511.19829v1
- Date: Tue, 25 Nov 2025 01:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.224806
- Title: A Unified Evaluation-Instructed Framework for Query-Dependent Prompt Optimization
- Title(参考訳): クエリ依存型プロンプト最適化のための統一評価指導フレームワーク
- Authors: Ke Chen, Yifeng Wang, Hassan Almosapeeh, Haohan Wang,
- Abstract要約: ほとんどのプロンプト最適化手法は単一の静的テンプレートを洗練し、複雑なユーザーシナリオや動的なユーザーシナリオでは効果がない。
より根本的には、素早い品質それ自体は統一的で体系的な定義を欠き、断片化され信頼性の低い評価信号をもたらす。
当社のアプローチはまず、パフォーマンス指向で体系的で包括的な評価フレームワークを確立します。
- 参考スコア(独自算出の注目度): 28.35927390266904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most prompt-optimization methods refine a single static template, making them ineffective in complex and dynamic user scenarios. Existing query-dependent approaches rely on unstable textual feedback or black-box reward models, providing weak and uninterpretable optimization signals. More fundamentally, prompt quality itself lacks a unified, systematic definition, resulting in fragmented and unreliable evaluation signals. Our approach first establishes a performance-oriented, systematic, and comprehensive prompt evaluation framework. Furthermore, we develop and finetune an execution-free evaluator that predicts multi-dimensional quality scores directly from text. The evaluator then instructs a metric-aware optimizer that diagnoses failure modes and rewrites prompts in an interpretable, query-dependent manner. Our evaluator achieves the strongest accuracy in predicting prompt performance, and the evaluation-instructed optimization consistently surpass both static-template and query-dependent baselines across eight datasets and on three backbone models. Overall, we propose a unified, metric-grounded perspective on prompt quality, and demonstrated that our evaluation-instructed optimization pipeline delivers stable, interpretable, and model-agnostic improvements across diverse tasks.
- Abstract(参考訳): ほとんどのプロンプト最適化手法は単一の静的テンプレートを洗練し、複雑なユーザーシナリオや動的なユーザーシナリオでは効果がない。
既存のクエリ依存アプローチは不安定なテキストフィードバックやブラックボックス報酬モデルに依存しており、弱い、解釈不能な最適化信号を提供する。
より根本的には、素早い品質それ自体は統一的で体系的な定義を欠き、断片化され信頼性の低い評価信号をもたらす。
当社のアプローチはまず、パフォーマンス指向で体系的で包括的な評価フレームワークを確立します。
さらに,テキストから直接多次元品質スコアを予測する実行自由評価器を開発した。
評価者は、障害モードを診断し、解釈可能なクエリ依存の方法でプロンプトを書き換えるメトリック対応オプティマイザを指示する。
評価手法は,8つのデータセットと3つのバックボーンモデルにまたがる静的テンプレートベースラインとクエリ依存ベースラインを一貫して上回っている。
全体として,評価指導による最適化パイプラインが,様々なタスクに対して安定的,解釈可能,モデルに依存しない改善を実現することを実証した。
関連論文リスト
- Doubly Debiased Test-Time Prompt Tuning for Vision-Language Models [43.35073848153914]
視覚言語モデルに対するテスト時プロンプトチューニングは、ゼロショット設定下での素晴らしい一般化機能を示している。
我々は、モデルとデータの観点から、迅速な最適化バイアスの根底にある原因を分析する。
論文 参考訳(メタデータ) (2025-11-12T09:35:31Z) - Prompt Optimization via Retrieved Reasoning Assets and Multi-Agent Analysis [5.935239028627343]
スコア・アウェア・プロンプト最適化のためのマルチエージェントフレームワークであるMA-SAPOを紹介する。
従来の手法と比較して、MA-SAPOは、体系的な編集を導く構造的推論と評価結果を明示的に結合する。
評価信号を解釈可能な推論連鎖に変換することで、MA-SAPOはより透明で、監査可能で、制御可能な、迅速な改善を生成する。
論文 参考訳(メタデータ) (2025-10-18T20:21:09Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - SCULPT: Systematic Tuning of Long Prompts [17.00433893207345]
本稿では,迅速な最適化を階層木改良問題として扱うフレームワークを提案する。
SCULPTはプロンプトをツリー構造として表現し、コンテキスト整合性を維持しながらターゲット変更を可能にする。
より安定し、解釈可能なプロンプト修正を生成し、タスク間のより良い一般化を保証する。
論文 参考訳(メタデータ) (2024-10-28T07:10:10Z) - Building Trust in Black-box Optimization: A Comprehensive Framework for Explainability [1.3812010983144802]
代理最適化(SO)は共通の解決法であるが、その独自性は説明可能性と透明性の欠如につながっている。
EmphInclusive Explainability Metrics for Surrogate Optimization (IEMSO)を提案する。
これらのメトリクスは、SOアプローチの透明性、信頼性、説明可能性を高める。
論文 参考訳(メタデータ) (2024-10-18T16:20:17Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。