論文の概要: Plug-and-Play Performance Estimation for LLM Services without Relying on Labeled Data
- arxiv url: http://arxiv.org/abs/2410.07737v1
- Date: Thu, 10 Oct 2024 09:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:15:56.735135
- Title: Plug-and-Play Performance Estimation for LLM Services without Relying on Labeled Data
- Title(参考訳): ラベル付きデータによるLLMサービスのプラグ・アンド・プレイ性能評価
- Authors: Can Wang, Dianbo Sui, Hongliang Sun, Hao Ding, Bolin Zhang, Zhiying Tu,
- Abstract要約: 大規模言語モデル(LLM)サービスは、インコンテキスト学習(ICL)による少数の例を活用した、未学習のタスクに印象的な能力を示す。
本稿では,異なるタスクやコンテキストにまたがるLLMサービスの性能を推定する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 8.360964737763657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) services exhibit impressive capability on unlearned tasks leveraging only a few examples by in-context learning (ICL). However, the success of ICL varies depending on the task and context, leading to heterogeneous service quality. Directly estimating the performance of LLM services at each invocation can be laborious, especially requiring abundant labeled data or internal information within the LLM. This paper introduces a novel method to estimate the performance of LLM services across different tasks and contexts, which can be "plug-and-play" utilizing only a few unlabeled samples like ICL. Our findings suggest that the negative log-likelihood and perplexity derived from LLM service invocation can function as effective and significant features. Based on these features, we utilize four distinct meta-models to estimate the performance of LLM services. Our proposed method is compared against unlabeled estimation baselines across multiple LLM services and tasks. And it is experimentally applied to two scenarios, demonstrating its effectiveness in the selection and further optimization of LLM services.
- Abstract(参考訳): 大規模言語モデル(LLM)サービスは、インコンテキスト学習(ICL)による少数の例を活用した、未学習のタスクに対して印象的な能力を示す。
しかし、ICLの成功はタスクやコンテキストによって異なり、不均一なサービス品質につながります。
各呼び出しにおけるLLMサービスのパフォーマンスを直接見積もることは、特にLLM内の豊富なラベル付きデータや内部情報を必要とする。
そこで本研究では,ICLのようなラベル付けされていないサンプルを「プラグ・アンド・プレイ(plug-and-play)」として利用し,異なるタスクやコンテキストにまたがるLLMサービスの性能を推定する手法を提案する。
以上の結果から, LLMサービス呼び出しから得られる陰性なログ類似度と難易度は, 有効かつ重要な特徴として機能することが示唆された。
これらの特徴に基づき、4つの異なるメタモデルを用いてLLMサービスの性能を推定する。
提案手法は,複数のLCMサービスおよびタスクを対象としたラベルなし推定ベースラインと比較する。
2つのシナリオに実験的に適用し、LLMサービスの選定とさらなる最適化の有効性を実証した。
関連論文リスト
- Revisiting SLO and Goodput Metrics in LLM Serving [17.777554083636716]
サービスレベル目標(SLO)と出力-LLMサービスの性能を評価するために、1秒あたりのSLOを満たす要求数を導入します。
既存のメトリクスは、ユーザーエクスペリエンスの性質を捉えていない。
本稿では,ユーザエクスペリエンスの性質を反映したSLOとグッドプットを含む,統一されたメトリクスフレームワークスムーズなグッドプットを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:05:37Z) - In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting [33.89176174108559]
大規模言語モデル(LLM)の文脈内学習は、いくつかの例で拡張された命令に基づいて予測を行う。
ICLの既存の例選択方法はスパースまたは高密度レトリバーを使用し、有効性能を導出する。
本稿では,言語モデルセレクタとLLMジェネレータから構成される実例選択(RLS)のためのポリシーベース強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T12:32:12Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - A Survey on Effective Invocation Methods of Massive LLM Services [9.21599372326452]
言語モデル・アズ・ア・サービス(LM)は、サービスプロバイダに課金するだけで、特別な知識を必要とせずにタスクを達成できる。
さまざまなプロバイダが、レイテンシ、パフォーマンス、価格のバリエーションを備えた大規模な大規模言語モデル(LLM)サービスを提供している。
本稿では, LLMサービス呼び出し方式の概要を概観する。
論文 参考訳(メタデータ) (2024-02-05T15:10:42Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。