論文の概要: Automatic Transmission for LLM Tiers: Optimizing Cost and Accuracy in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.20921v1
- Date: Tue, 27 May 2025 09:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.534787
- Title: Automatic Transmission for LLM Tiers: Optimizing Cost and Accuracy in Large Language Models
- Title(参考訳): LLMタイアの自動伝送:大規模言語モデルにおけるコストと精度の最適化
- Authors: Injae Na, Keonwoong Noh, Woohwan Jung,
- Abstract要約: LLM 層を自動的に選択する LLM Automatic Transmission (LLM-AT) フレームワークを導入する。
スタータは、与えられた質問を解決することを期待する初期LCM層を選択する。
ジェネレータは、選択された階層のLCMを使用して応答を生成し、その応答の有効性を評価する。
- 参考スコア(独自算出の注目度): 1.3791394805787949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM providers typically offer multiple LLM tiers, varying in performance and price. As NLP tasks become more complex and modularized, selecting the suitable LLM tier for each subtask is a key challenge to balance between cost and performance. To address the problem, we introduce LLM Automatic Transmission (LLM-AT) framework that automatically selects LLM tiers without training. LLM-AT consists of Starter, Generator, and Judge. The starter selects the initial LLM tier expected to solve the given question, the generator produces a response using the LLM of the selected tier, and the judge evaluates the validity of the response. If the response is invalid, LLM-AT iteratively upgrades to a higher-tier model, generates a new response, and re-evaluates until a valid response is obtained. Additionally, we propose accuracy estimator, which enables the suitable initial LLM tier selection without training. Given an input question, accuracy estimator estimates the expected accuracy of each LLM tier by computing the valid response rate across top-k similar queries from past inference records. Experiments demonstrate that LLM-AT achieves superior performance while reducing costs, making it a practical solution for real-world applications.
- Abstract(参考訳): LLMプロバイダは通常、複数のLCMティアを提供し、性能と価格が異なる。
NLPタスクがより複雑でモジュール化されるにつれて、各サブタスクに適したLCM層を選択することは、コストとパフォーマンスのバランスをとる上で重要な課題である。
この問題に対処するために,LLM 層をトレーニングなしで自動的に選択する LLM Automatic Transmission (LLM-AT) フレームワークを導入する。
LLM-ATは、スターター、ジェネレータ、およびジャッジで構成されている。
スタータは、与えられた問題の解決を期待する初期LCM階層を選択し、ジェネレータは、選択された階層のLMを使用して応答を生成し、判定者は、応答の有効性を評価する。
応答が無効であれば、LCM-ATは高階モデルに反復的にアップグレードし、新しい応答を生成し、有効な応答が得られるまで再評価する。
さらに、トレーニングなしで適切な初期LCM階層選択が可能な精度推定器を提案する。
入力質問が与えられた場合、精度推定器は、過去の推測記録から上位kの類似クエリに対する有効な応答率を計算することにより、各LSM層の予測精度を推定する。
LLM-ATはコストを削減しながら優れた性能を実現し、現実のアプリケーションに実用的なソリューションであることを示す実験である。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。
自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-12-31T17:46:51Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z) - Rank It, Then Ask It: Input Reranking for Maximizing the Performance of LLMs on Symmetric Tasks [9.867695275243879]
大規模言語モデル(LLM)は、実用的で汎用的なツールとして急速に登場した。
クエリが(順序のない)要素のバッグ上で要求される対称なタスクに対する LLM の適用について検討する。
論文 参考訳(メタデータ) (2024-11-30T17:39:59Z) - MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [20.793892860721712]
MetaLLMは,各クエリを最適大言語モデル(LLM)に動的かつインテリジェントにルーティングするフレームワークである。
多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。
OpenAI や Together AI などの一般的な LLM プラットフォーム上で実施した実験では,現実世界のシナリオにおいて MetaLLM の有効性を示す。
論文 参考訳(メタデータ) (2024-07-15T15:45:07Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。