論文の概要: Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing
- arxiv url: http://arxiv.org/abs/2508.12631v1
- Date: Mon, 18 Aug 2025 05:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.978107
- Title: Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing
- Title(参考訳): GPT-5を超える: パフォーマンス効率最適化ルーティングによるLLMのチーパーと改善
- Authors: Yiqun Zhang, Hao Li, Jianhao Chen, Hangfan Zhang, Peng Ye, Lei Bai, Shuyue Hu,
- Abstract要約: Avengers-Proは、大規模な言語モデルのためのテスト時間ルーティングフレームワークである。
様々な能力と効率のLCMをアンサンブルする。
最強のシングルモデルを平均精度で+7%超えることができる。
- 参考スコア(独自算出の注目度): 22.520739461946366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing performance and efficiency is a central challenge in large language model (LLM) advancement. GPT-5 addresses this with test-time routing, dynamically assigning queries to either an efficient or a high-capacity model during inference. In this work, we present Avengers-Pro, a test-time routing framework that ensembles LLMs of varying capacities and efficiencies, providing a unified solution for all performance-efficiency tradeoffs. The Avengers-Pro embeds and clusters incoming queries, then routes each to the most suitable model based on a performance-efficiency score. Across 6 challenging benchmarks and 8 leading models -- including GPT-5-medium, Gemini-2.5-pro, and Claude-opus-4.1 -- Avengers-Pro achieves state-of-the-art results: by varying a performance-efficiency trade-off parameter, it can surpass the strongest single model (GPT-5-medium) by +7% in average accuracy. Moreover, it can match the average accuracy of the strongest single model at 27% lower cost, and reach ~90% of that performance at 63% lower cost. Last but not least, it achieves a Pareto frontier, consistently yielding the highest accuracy for any given cost, and the lowest cost for any given accuracy, among all single models. Code is available at https://github.com/ZhangYiqun018/AvengersPro.
- Abstract(参考訳): 性能と効率のバランスをとることは、大規模言語モデル(LLM)の進歩における中心的な課題である。
GPT-5はテスト時のルーティングでこの問題に対処し、推論中に効率的なか高容量のモデルに動的にクエリを割り当てる。
本研究では,様々な能力と効率のLCMをアンサンブルするテスト時間ルーティングフレームワークであるAvengers-Proを紹介し,すべてのパフォーマンス効率トレードオフに対して統一的なソリューションを提供する。
Avengers-Proは、入ってくるクエリを埋め込み、クラスタ化し、パフォーマンス効率スコアに基づいて、それぞれを最も適切なモデルにルーティングする。
GPT-5-medium、Gemini-2.5-pro、Claude-opus-4.1を含む6つの挑戦的なベンチマークと8つの主要なモデル - Avengers-Proは、最先端の結果を達成する。
さらに、最強の単一モデルの平均精度を27%の低コストで、その性能の約90%を63%の低コストで達成することができる。
最後に、これはパレートフロンティアを達成し、任意のコストに対して常に高い精度と、任意の正確性に対して最低のコストを得られる。
コードはhttps://github.com/ZhangYiqun018/AvengersProで入手できる。
関連論文リスト
- Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。
O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。
GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。
これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文 参考訳(メタデータ) (2025-08-13T17:17:17Z) - Fremer: Lightweight and Effective Frequency Transformer for Workload Forecasting in Cloud Services [9.687789919349523]
本稿では,効率的かつ効果的な深層予測モデルであるFremerを提案する。
Fremerは3つの重要な要件を満たす: 優れた効率を示し、ほとんどのTransformerベースの予測モデルを上回る。
作業負荷予測において、すべての最先端(SOTA)モデルを上回る、例外的な精度を実現している。
論文 参考訳(メタデータ) (2025-07-17T08:51:28Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Controllable Prompt Tuning For Balancing Group Distributional Robustness [53.336515056479705]
グループ間で優れたパフォーマンスを実現するための最適化スキームを導入し、それらの性能を著しく犠牲にすることなく、全員に良い解決策を見出す。
本稿では,制御可能なプロンプトチューニング(CPT)を提案する。
突発的相関ベンチマークでは, 変換器と非変換器の両アーキテクチャ, および非モーダルおよびマルチモーダルデータにまたがって, 最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-03-05T06:23:55Z) - Astraios: Parameter-Efficient Instruction Tuning Code Large Language
Models [21.17021844323919]
Astraiosは7つのチューニングメソッドと最大16億のパラメータの4つのモデルサイズを使用して、命令チューニングされた28のOctoCoderモデルのスイートである。
その結果、FFTは全スケールで最高のダウンストリーム性能を示し、PEFT法はモデルスケールに基づいてその有効性に大きな違いがあることがわかった。
論文 参考訳(メタデータ) (2024-01-01T15:30:19Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Ensemble of Averages: Improving Model Selection and Boosting Performance
in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。
まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。
独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文 参考訳(メタデータ) (2021-10-21T00:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。