論文の概要: Conformal Constrained Policy Optimization for Cost-Effective LLM Agents
- arxiv url: http://arxiv.org/abs/2511.11828v1
- Date: Fri, 14 Nov 2025 19:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.329221
- Title: Conformal Constrained Policy Optimization for Cost-Effective LLM Agents
- Title(参考訳): コスト効果 LLM エージェントのコンフォーマル制約最適化
- Authors: Wenwen Si, Sooyong Jang, Insup Lee, Osbert Bastani,
- Abstract要約: 大規模言語モデル(LLM)は最近、AI問題の解決に向けて大きな進歩を遂げた。
本稿では,複数のLLMモデルとコスト/精度のトレードオフをエージェント方式で組み合わせた新しい戦略を提案する。
当社のアプローチは,信頼性を維持しつつ,よりコスト効率のよいLCMエージェントをデプロイするための,原則的かつ実用的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 27.37909142846675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have recently made tremendous progress towards solving challenging AI problems, they have done so at increasingly steep computational and API costs. We propose a novel strategy where we combine multiple LLM models with varying cost/accuracy tradeoffs in an agentic manner, where models and tools are run in sequence as determined by an orchestration model to minimize cost subject to a user-specified level of reliability; this constraint is formalized using conformal prediction to provide guarantees. To solve this problem, we propose Conformal Constrained Policy Optimization (CCPO), a training paradigm that integrates constrained policy optimization with off-policy reinforcement learning and recent advances in online conformal prediction. CCPO jointly optimizes a cost-aware policy (score function) and an adaptive threshold. Across two multi-hop question answering benchmarks, CCPO achieves up to a 30% cost reduction compared to other cost-aware baselines and LLM-guided methods without compromising reliability. Our approach provides a principled and practical framework for deploying LLM agents that are significantly more cost-effective while maintaining reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は最近、AI問題の解決に向けて大きな進歩を遂げましたが、ますます急激な計算とAPIコストで実現しています。
本稿では,複数のLCMモデルとさまざまなコスト/精度トレードオフをエージェント方式で組み合わせた新しい戦略を提案する。この手法では,モデルとツールを,ユーザが指定した信頼性レベルを考慮に入れたコストを最小限に抑えるために,オーケストレーションモデルによって決定されたシーケンスで順次実行し,その制約を共形予測を用いて形式化し,保証を提供する。
この問題を解決するために,制約付き政策最適化と非政治強化学習を統合した訓練パラダイムであるCCPO(Conformal Constrained Policy Optimization)を提案する。
CCPOはコスト対応ポリシー(スコア関数)と適応閾値を共同で最適化する。
2つのマルチホップ質問応答ベンチマークにおいて、CCPOは信頼性を損なうことなく、他のコスト認識ベースラインやLCM誘導手法と比較して最大30%のコスト削減を実現している。
当社のアプローチは,信頼性を維持しつつ,よりコスト効率のよいLCMエージェントをデプロイするための,原則的かつ実用的なフレームワークを提供する。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Dynamic Policy Induction for Adaptive Prompt Optimization: Bridging the Efficiency-Accuracy Gap via Lightweight Reinforcement Learning [0.0]
本稿では,1ステップのマルコフ決定プロセス(MDP)として適応戦略選択を形式化する軽量強化学習フレームワークであるPrompt Policy Network(PPN)を紹介する。
算術的推論ベンチマークの実験では、PPNは競争精度を維持しながら自己整合性よりも61.5%のトークンコスト削減を達成した。
論文 参考訳(メタデータ) (2025-09-28T07:32:42Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - MESS+: Dynamically Learned Inference-Time LLM Routing in Model Zoos with Service Level Guarantees [17.478510146434218]
オープンウェイトな大規模言語モデル(LLM)動物園は、多くの高品質なモデルへのアクセスを提供する。
ほとんどのユーザーは、モデル技術に気を使わずに、事実的正確で安全で満足な応答を欲しがっている。
コスト最適LCM要求ルーティングのための最適化アルゴリズムであるMESS+を紹介する。
論文 参考訳(メタデータ) (2025-05-26T13:11:08Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - Policy Optimization with Linear Temporal Logic Constraints [37.27882290236194]
本稿では,線形時間論理制約を用いた政策最適化の問題点について考察する。
我々は,タスク満足度とコスト最適性の両方を保証するために,サンプル複雑性分析を楽しむモデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2022-06-20T02:58:02Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。