論文の概要: The Efficiency Frontier: A Unified Framework for Cost-Performance Optimization in LLM Context Management
- arxiv url: http://arxiv.org/abs/2605.23071v1
- Date: Thu, 21 May 2026 22:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.120574
- Title: The Efficiency Frontier: A Unified Framework for Cost-Performance Optimization in LLM Context Management
- Title(参考訳): 効率フロンティア:LLMコンテキスト管理におけるコストパフォーマンス最適化のための統一フレームワーク
- Authors: Binqi Shen, Lier Jin, Hanyu Cai, Lan Hu, Yuting Xin,
- Abstract要約: 大規模言語モデル(LLM)は、長いコンテキスト処理にますます依存するが、コンテキストウィンドウの拡大は、計算と財政のかなりのコストをもたらす。
検索とメモリ圧縮を含む既存の文脈削減手法は、通常、パフォーマンスと効率のメトリクスを独立して評価する。
本稿では,LLMコンテキスト管理におけるコストパフォーマンス最適化のための統合フレームワークである「効率フロンティア」を紹介する。
- 参考スコア(独自算出の注目度): 0.6263481844384227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly rely on long-context processing, but expanding context windows introduces substantial computational and financial costs. Existing context reduction approaches, including retrieval and memory compression methods, are typically evaluated using performance and efficiency metrics independently, limiting systematic comparison and deployment-aware decision-making. This paper introduces The Efficiency Frontier, a unified framework for cost-performance optimization in LLM context management. The framework models context strategy selection as a deployment-aware optimization problem that jointly accounts for task performance, token cost, and preprocessing reuse through amortized cost modeling. Unlike existing evaluations that compare methods in isolation, the proposed framework enables decision-oriented analysis of when different context management strategies become preferable under varying operational conditions. Evaluated on 5,000 HotpotQA instances, the framework reveals distinct operational regimes and transition boundaries between retrieval-based and preprocessing-based strategies. Results show that deployment-aware optimization reduces effective token usage by approximately 25% at comparable performance ($F1 \approx 0.78$), while amortized memory compression achieves over 50% lower token cost relative to full-context prompting in higher-performance settings. Overall, the proposed framework provides a principled and practical foundation for evaluating and deploying scalable, efficient, and sustainable LLM systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長いコンテキスト処理にますます依存するが、コンテキストウィンドウの拡大は、計算と財政のかなりのコストをもたらす。
検索とメモリ圧縮を含む既存のコンテキスト削減アプローチは、通常、性能と効率のメトリクスを独立に評価し、体系的な比較とデプロイメント対応の意思決定を制限する。
本稿では,LLMコンテキスト管理におけるコストパフォーマンス最適化のための統合フレームワークである「効率フロンティア」を紹介する。
フレームワークはコンテキスト戦略の選択を、タスクパフォーマンス、トークンコスト、および償却コストモデリングによる前処理の再利用を共同で考慮するデプロイメント対応の最適化問題としてモデル化する。
個別にメソッドを比較する既存の評価とは異なり、様々な運用条件下で異なるコンテキスト管理戦略が好まれるかどうかを意思決定指向で分析できるフレームワークが提案されている。
5,000のHotpotQAインスタンスに基づいて評価され、このフレームワークは、検索ベースと前処理ベースの戦略間の異なる運用状況と移行境界を明らかにする。
その結果、デプロイ対応の最適化により、同等のパフォーマンスで有効トークン使用率が約25%削減される(F1 \approx 0.78$)。
全体として、提案するフレームワークは、スケーラブルで効率的で持続可能なLLMシステムの評価とデプロイのための原則的で実用的な基盤を提供する。
関連論文リスト
- AE-LLM: Adaptive Efficiency Optimization for Large Language Models [0.0]
大規模言語モデル(LLM)は様々なアプリケーションで顕著な成功を収めているが、計算コスト、メモリ要件、エネルギー消費のため、その展開は依然として困難である。
近年の実証研究は、単一効率技術が普遍的に最適ではないことを示した。代わりに、効率的な注意機構、Mix-of-Experts(MoE)、パラメータ効率の良い微調整、量子化といった手法の有効性は、タスク特性、資源制約、モデルスケールによって大きく異なる。
AE-LLMは、特定のデプロイメントシナリオに合わせて最適な効率技術を自動的に選択し、組み合わせる統合フレームワークである。
論文 参考訳(メタデータ) (2026-03-20T20:46:18Z) - Conformal Constrained Policy Optimization for Cost-Effective LLM Agents [27.37909142846675]
大規模言語モデル(LLM)は最近、AI問題の解決に向けて大きな進歩を遂げた。
本稿では,複数のLLMモデルとコスト/精度のトレードオフをエージェント方式で組み合わせた新しい戦略を提案する。
当社のアプローチは,信頼性を維持しつつ,よりコスト効率のよいLCMエージェントをデプロイするための,原則的かつ実用的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-14T19:39:28Z) - Dynamic Policy Induction for Adaptive Prompt Optimization: Bridging the Efficiency-Accuracy Gap via Lightweight Reinforcement Learning [0.0]
本稿では,1ステップのマルコフ決定プロセス(MDP)として適応戦略選択を形式化する軽量強化学習フレームワークであるPrompt Policy Network(PPN)を紹介する。
算術的推論ベンチマークの実験では、PPNは競争精度を維持しながら自己整合性よりも61.5%のトークンコスト削減を達成した。
論文 参考訳(メタデータ) (2025-09-28T07:32:42Z) - LLM-guided Chemical Process Optimization with a Multi-Agent Approach [8.714038047141202]
本稿では,最小限のプロセス記述から動作制約を自律的に推論するマルチエージェントLLMフレームワークを提案する。
当社のAutoGenベースのフレームワークは、制約生成、パラメータ検証、シミュレーション、最適化ガイダンスのための特別なエージェントを備えたOpenAIのo3モデルを採用しています。
論文 参考訳(メタデータ) (2025-06-26T01:03:44Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Doing More with Less: A Survey on Routing Strategies for Resource Optimisation in Large Language Model-Based Systems [1.430963201405577]
LLM(Large Language Model)ベースのシステムは、通常、すべてのユーザクエリを処理するために単一の汎用LLMで設計される。
これらのシステムは、異なるクエリが異なるレベルの推論、ドメイン知識、または前処理を必要とするため、非効率である可能性がある。
したがって、より小さなまたは特殊なモデルなど、より適切なコンポーネントにクエリをルーティングするためにルーティングメカニズムを使用することができる。
論文 参考訳(メタデータ) (2025-02-01T12:08:38Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。