論文の概要: C3PO: Optimized Large Language Model Cascades with Probabilistic Cost Constraints for Reasoning
- arxiv url: http://arxiv.org/abs/2511.07396v1
- Date: Mon, 10 Nov 2025 18:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.421615
- Title: C3PO: Optimized Large Language Model Cascades with Probabilistic Cost Constraints for Reasoning
- Title(参考訳): C3PO: 推論のための確率的コスト制約付き最適化された大規模言語モデルカスケード
- Authors: Antonios Valkanas, Soumyasundar Pal, Pavel Rumiantsev, Yingxue Zhang, Mark Coates,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な結果を得たが、その高い推論コストは、現実世界のデプロイメントにとって大きな障壁であり続けている。
既存のカスケード法はラベル付きデータによる教師付きトレーニングに依存しており、理論的一般化の保証は提供せず、テスト時間計算コストの制限も与えている。
確率的コスト制約の下でLLMカスケードを最適化するための自己教師型フレームワークであるC3POを紹介する。
- 参考スコア(独自算出の注目度): 24.65381108650337
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have achieved impressive results on complex reasoning tasks, but their high inference cost remains a major barrier to real-world deployment. A promising solution is to use cascaded inference, where small, cheap models handle easy queries, and only the hardest examples are escalated to more powerful models. However, existing cascade methods typically rely on supervised training with labeled data, offer no theoretical generalization guarantees, and provide limited control over test-time computational cost. We introduce C3PO (Cost Controlled Cascaded Prediction Optimization), a self-supervised framework for optimizing LLM cascades under probabilistic cost constraints. By focusing on minimizing regret with respect to the most powerful model (MPM), C3PO avoids the need for labeled data by constructing a cascade using only unlabeled model outputs. It leverages conformal prediction to bound the probability that inference cost exceeds a user-specified budget. We provide theoretical guarantees on both cost control and generalization error, and show that our optimization procedure is effective even with small calibration sets. Empirically, C3PO achieves state-of-the-art performance across a diverse set of reasoning benchmarks including GSM8K, MATH-500, BigBench-Hard and AIME, outperforming strong LLM cascading baselines in both accuracy and cost-efficiency. Our results demonstrate that principled, label-free cascade optimization can enable scalable LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な結果を得たが、その高い推論コストは、現実世界のデプロイメントにとって大きな障壁であり続けている。
有望な解決策はカスケード推論(cascaded inference)を使用することで、小さくて安価なモデルが簡単なクエリを処理し、最も難しい例だけがより強力なモデルにエスカレーションされる。
しかし、既存のカスケード法は一般にラベル付きデータによる教師付きトレーニングに頼り、理論的な一般化の保証は提供せず、テスト時間計算コストを限定的に制御する。
確率的コスト制約下でLLMカスケードを最適化するための自己教師型フレームワークであるC3PO(Cost Controlled Cascaded Prediction Optimization)を紹介する。
最も強力なモデル(MPM)に対する後悔を最小化することに集中することにより、C3POはラベルのないモデル出力のみを使用してカスケードを構築することでラベル付きデータの必要性を回避する。
共形予測を利用して、推測コストがユーザが指定した予算を超える確率を限定する。
コスト制御と一般化誤差の両方について理論的に保証し、小さな校正セットでも最適化手順が有効であることを示す。
実証的には、C3POはGSM8K、MATH-500、BigBench-Hard、AIMEといった様々な推論ベンチマークで最先端のパフォーマンスを達成し、高いLCMカスケーディングベースラインを精度とコスト効率の両方で上回っている。
この結果から, ラベルのないカスケード最適化により, 拡張性のあるLCMを実現できることが示された。
関連論文リスト
- Efficient LLM Collaboration via Planning [56.081879390960204]
小規模で大規模なモデルでは、プランナーと実行担当者として交代で行動し、タスクを協調的に解決するために、多段階のカスケードでプランを交換する。
私たちはCOPEが大規模プロプライエタリモデルに匹敵するパフォーマンスを実現し,推論APIのコストを大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-06-13T08:35:50Z) - Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。
Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T01:56:29Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing [20.445496441396028]
本稿では,モデルカスケーディングと推論時自己テストアルゴリズムを組み合わせた新しいフレームワークを提案する。
このアプローチでは,自己生成テストを活用して精度を高め,モデルのカスケード決定を評価する。
実験結果から, カスケード手法はコストを平均26%削減し, ベストケースでは最大70%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:20:04Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。