論文の概要: CRAFT: Cost-aware Refinement And Front-aware Tuning of Prompts
- arxiv url: http://arxiv.org/abs/2606.04661v1
- Date: Wed, 03 Jun 2026 09:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.659593
- Title: CRAFT: Cost-aware Refinement And Front-aware Tuning of Prompts
- Title(参考訳): CRAFT: コスト対応のリファインメントとフロントアウェアによるプロンプトの調整
- Authors: Shanu Kumar, Shubhanshu Khandelwal, Akhila Yesantarao Venkata, Parag Agrawal, Yova Kementchedjhieva, Manish Gupta,
- Abstract要約: CRAFT(Cost-Aware Refinement and Front-Aware Tuning)は,LLM検証コールを少ないリソースとして扱うプロンプトで,楽観的な候補フロント付近の候補に割り当てる。
各ラウンド、補完的精度指向、コスト指向のジェネレータは編集を提案し、NSGA-IIの保持は人口の広がりを保っている。
6つの分類と推論のベンチマークで、CRAFTの保持するフロントは、高い精度と低コストの両方に到達し、精度のみ、コストのみ、および重み付きサムベースラインは、それぞれより狭い領域に集中している。
- 参考スコア(独自算出の注目度): 22.80332488750132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompts tuned for accuracy often grow long, raising inference cost on every model call. The best accuracy-cost trade-off depends on the task and the budget, so prompt optimization is a search over the Pareto front of accuracy and prompt-token cost rather than for one prompt. The usual shortcut, collapsing the objectives into a weighted sum, fixes the trade-off weight before search and often recovers only a narrow region of the front, a failure we call scalarization collapse. We present CRAFT (Cost-aware Refinement And Front-aware Tuning), a Pareto-front prompt optimizer that treats target-LLM validation calls as the scarce resource and allocates them to candidates near the optimistic candidate front. Each round, complementary accuracy-oriented and cost-oriented generators propose edits, Pareto-gap acquisition spends the per-round validation budget, and NSGA-II retention keeps a spread-out population. Across six classification and reasoning benchmarks, CRAFT's retained fronts reach both high-accuracy and low-cost regions, while accuracy-only, cost-only, and weighted-sum baselines each concentrate in narrower regions. The accuracy-cost trade-off becomes a post-search choice, not a pre-search weight.
- Abstract(参考訳): 精度のために調整されたプロンプトは、しばしば長くなり、モデルコール毎に推論コストが上昇する。
最良の精度とコストのトレードオフは、タスクと予算に依存するため、迅速な最適化は、1つのプロンプトではなく、精度と迅速なコストの面でParetoを探索することである。
通常のショートカットは、目的を重み付けの和に分解し、探索前にトレードオフウェイトを修正し、しばしば前面の狭い領域だけを回復するが、これはスカラー化崩壊と呼ばれる失敗である。
CRAFT (Cost-Aware Refinement And Front-Aware Tuning) は、ターゲットLLM検証コールを少ないリソースとして扱い、楽観的な候補フロント近くの候補に割り当てるパレートフロントプロンプトオプティマイザである。
各ラウンド、補完的精度指向、コスト指向のジェネレータは編集を提案し、Pareto-gapの買収は丸ごとの検証予算に費やし、NSGA-IIの維持は人口を拡大し続ける。
6つの分類と推論のベンチマークで、CRAFTの保持するフロントは、高い精度と低コストの両方に到達し、精度のみ、コストのみ、および重み付きサムベースラインは、それぞれより狭い領域に集中している。
精度とコストのトレードオフは、検索前の重みではなく、検索後の選択になる。
関連論文リスト
- Instance-Optimal Estimation with Multiple LLM Judges on a Budget [84.31744861038106]
我々は、この問題を*予算付きヘテロスケダティックなマルチジャッジ推定*として定式化する。
K$のプロンプト-レスポンスペア、J$の既知のコストと未知のクエリ-ジャッジ分散が与えられた場合、目標は、$ell_p$-errorを最小化しながら、有界スコアベクトルを推定することである。
EST-IVWEは,予算の低次項までのオラクルIVWEレートと一致していることを示す。
論文 参考訳(メタデータ) (2026-05-22T08:26:08Z) - Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge [4.511996087821266]
Reasoning-capable large language model (LLM) は、最近自動判断器として採用されている。
本研究では,明示的推論により,構造化された検証を必要とするタスクの判断精度が大幅に向上することを示す。
本稿では、推論と非推論の判断を選択可能なロバスト適応コスト効率ルーティング(RACER)を提案する。
論文 参考訳(メタデータ) (2026-05-11T16:30:20Z) - Model Compression with Exact Budget Constraints via Riemannian Manifolds [39.54576236079211]
トータルコスト予算の下で各NグループにKオプションの1つを割り当てることは、効率的なAIにおいて繰り返し発生する問題である。
我々は、ソフトマックス緩和の下で、予算制約がロジット空間における滑らかなリーマン多様体を異常に単純な幾何学で定義することを示す新しいアプローチを示す。
これらの特性に基づいて、接射影、二分探索リトラクション、運動量輸送を標準とするリーマン制約最適化(RCO)を提案する。
論文 参考訳(メタデータ) (2026-05-01T13:30:23Z) - Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization [18.737087162461563]
テストタイムの計算スケーリングは、大規模言語モデルのパフォーマンスを向上させるための強力なレバーとなっている。
しかし、これらのテクニックを有限の推論予算の下で展開するには、現在のシステムがほとんど無視する決定が必要である。
我々はこれを制約付き最適化問題(平均計算予算の予測精度を最大化する)として定式化し、2段階のソルベ・テン・ラーンパイプラインで解いた。
論文 参考訳(メタデータ) (2026-04-16T10:39:22Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Predictive Scheduling for Efficient Inference-Time Reasoning in Large Language Models [6.002670452103349]
大規模言語モデル(LLM)は複雑な推論タスクにおいて最先端の精度を達成する。
しかし、クエリ毎に固定されたトークン予算を使用することで、簡単な入力の過剰計算とハードな入力の過小計算につながる。
プラグイン・アンド・プレイのフレームワークであるPredictive Schedulingを導入する。このフレームワークは軽量な予測器を事前実行し、各クエリの最適な推論の長さや難易度を全世代前に推定する。
論文 参考訳(メタデータ) (2026-02-01T13:58:23Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。