Fugu-MT 論文翻訳(概要): SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees

論文の概要: SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees

arxiv url: http://arxiv.org/abs/2403.13835v1
Date: Mon, 11 Mar 2024 17:45:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 07:07:37.432880
Title: SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees
Title（参考訳）: SMART: 処理コスト削減のための精度保証付き言語モデルの自動スケールダウン
Authors: Saehan Jo, Immanuel Trummer,
Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。 SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
参考スコア（独自算出の注目度）: 21.801053526411415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advancement of Large Language Models (LLMs) has significantly boosted performance in natural language processing (NLP) tasks. However, the deployment of high-performance LLMs incurs substantial costs, primarily due to the increased number of parameters aimed at enhancing model performance. This has made the use of state-of-the-art LLMs more expensive for end-users. AI service providers, such as OpenAI and Anthropic, often offer multiple versions of LLMs with varying prices and performance. However, end-users still face challenges in choosing the appropriate LLM for their tasks that balance result quality with cost. We introduce SMART, Scaling Models Adaptively for Reduced Token Fees, a novel LLM framework designed to minimize the inference costs of NLP tasks while ensuring sufficient result quality. It enables users to specify an accuracy constraint in terms of the equivalence of outputs to those of the most powerful LLM. SMART then generates results that deviate from the outputs of this LLM only with a probability below a user-defined threshold. SMART employs a profiling phase that evaluates the performance of multiple LLMs to identify those that meet the user-defined accuracy level. SMART optimizes the tradeoff between profiling overheads and the anticipated cost savings resulting from profiling. Moreover, our approach significantly reduces inference costs by strategically leveraging a mix of LLMs. Our experiments on three real-world datasets show that, based on OpenAI models, SMART achieves significant cost savings, up to 25.6x in comparison to GPT-4.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩は自然言語処理(NLP)タスクの性能を大幅に向上させた。しかし、高性能LCMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。これにより、最先端のLCMがエンドユーザにとってより高価なものになる。 OpenAIやAnthropicといったAIサービスプロバイダは、価格とパフォーマンスの異なる複数のバージョンのLLMを提供することが多い。しかしながら、エンドユーザは、結果の品質とコストのバランスをとるタスクに対して、適切なLLMを選択することの課題に直面しています。 SMART(Scaling Models Adaptively for Reduced Token Fees)は,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保しつつ,新たなLLMフレームワークである。ユーザは、最も強力なLCMの出力の等価性の観点から、精度の制約を指定できる。 SMART はこの LLM の出力から逸脱する結果を、ユーザ定義しきい値以下の確率で生成する。 SMARTは、ユーザ定義の精度レベルを満たすものを特定するために、複数のLCMの性能を評価するプロファイリングフェーズを採用している。 SMARTはプロファイリングオーバーヘッドとプロファイリングによるコスト削減とのトレードオフを最適化する。さらに,LLMの混合を戦略的に活用することで,推論コストを大幅に削減する。実世界の3つのデータセットに対する実験から,OpenAIモデルに基づくSMARTは,GPT-4と比較して最大25.6倍の大幅なコスト削減を実現していることがわかった。

関連論文リスト

Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
Cut Costs, Not Accuracy: LLM-Powered Data Processing with Guarantees [10.940593916080276]
大規模言語モデル(LLM)は、大規模テキストデータセットを処理するために、データシステムのビルディングブロックとしてますます使われています。高いコストを避けるため、より安価だが低品質のLCMをレコード処理に使用することができる。 BARGAINは,データ処理に安価なLCMを用いてコストを大幅に削減する手法である。
論文参考訳（メタデータ） (2025-09-02T23:41:50Z)
An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning [52.29223403698673]
本稿では, Answer Set Programming (ASP) とともに, Conformal Language Modelling (CLM) の使用について検討する。 LLM から ASP プログラムの集合を生成するために CLM を適用し,出力の正確性に関する統計的保証を提供する。実験の結果,標準サンプリング手法を用いたベースラインモデルではCLMが有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T14:10:10Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な性能で知られている。より小型の言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるが、より大きなデバイスの性能に匹敵する。本稿では,両モデルの強みを生かした新しいハイブリッド推論手法を提案する。
論文参考訳（メタデータ） (2024-09-15T15:12:45Z)
Understanding the Performance and Estimating the Cost of LLM Fine-Tuning [9.751868268608675]
コスト効率の良い特定のタスクのための微調整大型言語モデル(LLM)。本稿では,Sparse Mixture of Experts (MoE)をベースとしたLLMファインチューニングを特徴付ける。また,クラウド上でのLCM微調整のコストを推定するための解析モデルを開発し,検証する。
論文参考訳（メタデータ） (2024-08-08T16:26:07Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [21.689490112983677]
分類タスクに最適な大言語モデル(LLM)に各クエリを動的にルーティングするフレームワークであるMetaLLMを紹介する。多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。 LLMプラットフォーム上で実施した本実験では,メタLLMの有効性を実世界のシナリオで示す。
論文参考訳（メタデータ） (2024-07-15T15:45:07Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。 OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文参考訳（メタデータ） (2024-05-24T01:05:37Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Towards Optimizing the Costs of LLM Usage [4.032848774697859]
理論的にも経験的にも、品質とコストを両立させる最適化問題について検討する。トークンを品質に配慮した方法で低減するためのいくつかの決定論的手法を提案する。本手法は,品質を4%から7%向上させながら,コストを40%から90%削減する。
論文参考訳（メタデータ） (2024-01-29T16:36:31Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。