論文の概要: Select Smarter, Not More: Prompt-Aware Evaluation Scheduling with Submodular Guarantees
- arxiv url: http://arxiv.org/abs/2604.11328v1
- Date: Mon, 13 Apr 2026 11:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.501982
- Title: Select Smarter, Not More: Prompt-Aware Evaluation Scheduling with Submodular Guarantees
- Title(参考訳): Select Smart, not more: Prompt-Aware Evaluation Scheduling with Submodular Guarantees
- Authors: Xiaoyu Ma, Yiwen Li, Haoyue Liu, Zhichao Wang, Ye Chen, Yongxin Guo, Xiaoying Tang,
- Abstract要約: 本稿では, Prompt-Aware Online Evaluation Scheduling (POES)を提案する。
POESはIRTベースの識別ユーティリティ、施設位置のカバレッジ用語、スイッチングコストを意識したウォームスタートスワップを統一された目的に統合する。
POESは、無視できるトークンオーバーヘッドで、全体的な平均精度(最高のベースラインよりも6.2%改善)が最も高い。
- 参考スコア(独自算出の注目度): 28.54776477263591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic prompt optimization (APO) hinges on the quality of its evaluation signal, yet scoring every prompt candidate on the full training set is prohibitively expensive. Existing methods either fix a single evaluation subset before optimization begins (principled but prompt-agnostic) or adapt it heuristically during optimization (flexible but unstable and lacking formal guarantees). We observe that APO naturally maps to an online adaptive testing problem: prompts are examinees, training examples are test items, and the scheduler should select items that best discriminate among the strongest candidates. This insight motivates Prompt-Aware Online Evaluation Scheduling (POES), which integrates an IRT-based discrimination utility, a facility-location coverage term, and switching-cost-aware warm-start swaps into a unified objective that is provably monotone submodular, yielding a (1-1/e) greedy guarantee for cold starts and bounded drift for warm-start updates. An adaptive controller modulates the exploration-exploitation balance based on optimization progress. Across 36 tasks spanning three benchmark families, POES achieves the highest overall average accuracy (6.2 percent improvement over the best baseline) with negligible token overhead (approximately 4 percent) at the same evaluation budget. Moreover, principled selection at k = 20 examples matches or exceeds the performance of naive evaluation at k = 30-50, reducing token consumption by 35-60 percent, showing that selecting smarter is more effective than selecting more. Our results demonstrate that evaluation scheduling is a first-class component of APO, not an implementation detail.
- Abstract(参考訳): 自動プロンプト最適化(APO)はその評価信号の品質に基づいているが、フルトレーニングセットで全てのプロンプト候補を評価することは違法に高価である。
既存の手法では、最適化が始まる前に単一の評価サブセットを固定するか、最適化中にヒューリスティックに適応するか(柔軟だが不安定で正式な保証が欠如している)。
我々は、APOがオンライン適応テスト問題に自然に対応していることを観察する:プロンプトは検査であり、トレーニング例はテスト項目であり、スケジューラは最有力候補の中から最も差別的な項目を選択するべきである。
この洞察は、IRTベースの識別ユーティリティ、施設位置のカバレッジ用語、およびスイッチングコスト対応のウォームスタートスワップを統合したPrompt-Aware Online Evaluation Scheduling (POES) を、確実に単調なサブモジュラー(submodular)の統一目的に置き換え、コールドスタートとウォームスタート更新のためのバウンドド(bounded drift)を(1-1/e)保証する。
適応制御器は、最適化進捗に基づいて探索・探索バランスを変調する。
3つのベンチマークファミリにまたがる36のタスクのうち、POESは同じ評価予算で無視可能なトークンオーバーヘッド(約4%)で全体の平均精度(6.2%の改善)を達成している。
さらに、k = 20例の原則選択は、k = 30-50での素性評価のパフォーマンスと一致し、トークン消費を35-60%削減し、より賢い選択の方がより効果的であることを示す。
その結果,評価スケジューリングはAPOの第一級コンポーネントであり,実装の詳細ではないことがわかった。
関連論文リスト
- Adaptive Prompt Structure Factorization: A Framework for Self-Discovering and Optimizing Compositional Prompt Programs [18.579725648410815]
APIのみのフレームワークであるAdaptive Prompt Structure Factorization (aPSF)を提案する(prompt-in/text-out; モデル内部へのアクセスなし)。
aPSFはアーキテクトモデルを使用して、タスク固有のプロンプト構造を意味要因として発見する。
aPSFは、原則認識を含む強力なベースラインを上回り、平均で最大2.16ポイントの精度を向上させる。
論文 参考訳(メタデータ) (2026-04-08T05:25:40Z) - Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE [7.609008983716641]
我々は、一般的なネガティブ選択戦略とDPOトレーニングとの相互作用を比較するために、マルチモーダルシーケンシャルレコメンデーションの実験を行う。
我々の中心的な発見は、決定論的ハードネガティブを動的トップK候補プールからのサンプリングに置き換えた単純な修正により、常にランク付け性能が向上することである。
論文 参考訳(メタデータ) (2026-03-31T04:49:32Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - Submodular Evaluation Subset Selection in Automatic Prompt Optimization [10.54347571741568]
原理的観点から,迅速な最適化のための評価サブセット選択について検討する。
対象集合関数の最大化としてフレーム選択を行い、穏やかな条件下では単調かつ部分モジュラーであることが示せる。
GSM8K、MATH、GPQA-Diamond全体で、サブモジュール選択された評価サブセットは、ランダムやベースラインよりも最適化されたプロンプトが得られる。
論文 参考訳(メタデータ) (2026-01-07T01:12:45Z) - OptPO: Optimal Rollout Allocation for Test-time Policy Optimization [11.375209834858135]
テスト時のポリシー最適化により、大規模言語モデルでは、自己生成ロールアウトからのフィードバックを活用することで、分散シフトに適応することができる。
我々は、推論予算を適応的に割り当てる原則的フレームワークであるテスト時間ポリシー最適化のための最適ロールアウト割当(OptPO)を提案する。
論文 参考訳(メタデータ) (2025-12-02T15:38:52Z) - PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [1.6816171955882597]
PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。
単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、選択のための人または判断に基づくスコアをなくし、変種の中から選択する。
PMPOは、BBHで最高平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上上げる。
論文 参考訳(メタデータ) (2025-05-22T06:59:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。