論文の概要: CliqueParcel: An Approach For Batching LLM Prompts That Jointly
Optimizes Efficiency And Faithfulness
- arxiv url: http://arxiv.org/abs/2402.14833v1
- Date: Sat, 17 Feb 2024 22:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:37:00.496283
- Title: CliqueParcel: An Approach For Batching LLM Prompts That Jointly
Optimizes Efficiency And Faithfulness
- Title(参考訳): CliqueParcel:効率と信心を共同で最適化するLDMプロンプトのバッチ化アプローチ
- Authors: Jiayi Liu, Tinghan Yang, Jennifer Neville
- Abstract要約: CliqueParcelは、推論プロセス中に大きな言語モデル(LLM)の効率を改善するように設計されている。
CliqueParcelは、広く認識されている8つのデータセットでテストされている。
この研究は推論効率に関する新しい洞察を提供し、有望なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 13.554160815699435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become pivotal in recent research. However,
during the inference process, LLMs still require substantial resources. In this
paper, we propose CliqueParcel, a method designed to improve the efficiency of
LLMs via prompt batching. Existing strategies to optimize inference efficiency
often compromise on output quality, leading to a discounted output problem.
This issue might result in reduced accuracy or outputs that are less detailed.
CliqueParcel is our answer to this challenge. While ensuring accuracy and
minimizing deviations from the original outputs (i.e., faithfulness), our
method significantly improves efficiency during inference.
To lay the groundwork, we first redefine efficiency measurements by excluding
the reduction in running time due to shorter lengths. Then, we provide a
comprehensive trade-off between efficiency and faithfulness to clarify the
nature of the 'discounted output' problem. Within the CliqueParcel framework,
we suggest multiple batching sub-methods and discuss the specific scenarios in
which they can be applied. During evaluation, CliqueParcel is tested on eight
widely recognized datasets, which can be classified into three types: reading
comprehension, open-source question-answering, and reasoning. Our experiments
explore the performance of CliqueParcel, including efficiency, faithfulness,
and the trade-off between them. This work provides novel insights into
inference efficiency and demonstrates promising performance.
- Abstract(参考訳): 近年,大規模言語モデル (LLMs) が重要視されている。
しかし、推論プロセスの間、LLMは依然としてかなりのリソースを必要とする。
本稿では,高速バッチ処理によるLCMの効率向上を目的としたCliqueParcelを提案する。
推論効率を最適化する既存の戦略は、しばしば出力品質を損なう。
この問題は精度の低下や、詳細でない出力をもたらす可能性がある。
CliqueParcelは、この挑戦に対する私たちの答えです。
精度の確保と元の出力からの偏差(すなわち忠実さ)の最小化を図りながら,提案手法は推論時の効率を著しく向上させる。
本研究は,まず,短い長さによる走行時間の短縮を排除し,効率測定を再定義する。
そして,「計数アウトプット」問題の性質を明らかにするため,効率性と忠実性との包括的トレードオフを提案する。
CliqueParcelフレームワーク内では、複数のバッチサブメソッドを提案し、適用可能な特定のシナリオについて議論する。
評価中、CliqueParcelは広く認識されている8つのデータセットでテストされ、読み取り理解、オープンソースの質問回答、推論の3つのタイプに分類される。
実験では,CliqueParcelの効率性,忠実性,トレードオフなどについて検討した。
この研究は推論効率に関する新しい洞察を提供し、有望なパフォーマンスを示す。
関連論文リスト
- Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models [28.105271954633682]
本稿では,Large Language Models (LLMs) へのリーク情報の再ランク付けのための,Q-PEFT (Q-PEFT) アプローチを提案する。
クエリを使用して、入力ドキュメントから上位$kのトークンを抽出し、コンテキストのヒントとして機能します。
検索機構をマルチヘッドアテンション層に置き換えて、エンドツーエンドのトレーニングを実現し、文書中のすべてのトークンをカバーすることにより、Q-PEFTをさらに強化する。
論文 参考訳(メタデータ) (2024-04-06T06:44:41Z) - Enhancing Low-Resource LLMs Classification with PEFT and Synthetic Data [36.09359953556684]
大規模言語モデル(LLMs)は、テキスト分類タスクにおいて、0ショットまたは数ショットの設定で動作する。
In-Context Learning (ICL) は通常、0ショット設定よりも精度が高いが、入力のプロンプトが長くなるため、効率性は高い。
論文 参考訳(メタデータ) (2024-04-03T03:24:19Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Compressing Context to Enhance Inference Efficiency of Large Language
Models [26.75216730927996]
本稿では,大規模言語モデル(LLM)の推論効率を向上させるための選択文脈法を提案する。
我々は、arXiv論文、ニュース記事、長い会話など、長いコンテキスト処理を必要とする共通のデータソースを用いて、アプローチをテストする。
実験の結果,Selective Contextはメモリコストを大幅に削減し,生成遅延を低減させることがわかった。
論文 参考訳(メタデータ) (2023-10-09T23:03:24Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。