論文の概要: Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization
- arxiv url: http://arxiv.org/abs/2403.00067v3
- Date: Mon, 22 Jul 2024 03:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 02:30:51.683156
- Title: Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization
- Title(参考訳): Query-OPT:ミーティング要約におけるマルチクエリ命令による大規模言語モデルの推論の最適化
- Authors: Md Tahmid Rahman Laskar, Elena Khasanova, Xue-Yong Fu, Cheng Chen, Shashi Bhushan TN,
- Abstract要約: 我々は,同一の入力コンテキストに対するクエリを1つのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約の達成に有効かどうかを検討する。
予測フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に制限される。
- 参考スコア(独自算出の注目度): 7.674972936853123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work focuses on the task of query-based meeting summarization in which the summary of a context (meeting transcript) is generated in response to a specific query. When using Large Language Models (LLMs) for this task, usually a new call to the LLM inference endpoint/API is triggered for each new query, even if the context stays the same. However, repeated calls to the LLM inference endpoints would significantly increase the costs of using them in production, making LLMs impractical for many real-world use cases. To address this problem, in this paper, we investigate whether combining the queries for the same input context in a single prompt to minimize repeated calls can be successfully used in meeting summarization. In this regard, we conduct extensive experiments by comparing the performance of various popular LLMs: GPT-4, Gemini, Claude-3, LLaMA-2, Mistral, Phi-3, and Qwen-2 in single-query and multi-query settings. We observe that 100% reliability in generating the response in the expected format is usually limited to certain closed-source LLMs, with most open-source LLMs lagging behind (except a few 7B parameters LLMs like Mistral and Phi-3). We conclude that multi-query prompting could be useful to significantly optimize the inference costs in meeting summarization.
- Abstract(参考訳): 本研究は,特定の問合せに応答してコンテキスト(書き起こし)の要約を生成する,問合せに基づく会議要約のタスクに焦点をあてる。
このタスクにLarge Language Models (LLM)を使用する場合、コンテキストが同じであっても、通常、新しいクエリ毎にLLM推論エンドポイント/APIへの新しい呼び出しがトリガーされる。
しかし、LLM推論エンドポイントへの繰り返し呼び出しは、実運用で使用するコストを大幅に増加させ、LLMを現実の多くのユースケースでは実用的でないものにする。
この問題に対処するために,本稿では,同一の入力コンテキストに対するクエリを単一のプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える手法が,要約に有効であるかどうかを検討する。
そこで本研究では,GPT-4,Gemini,Claude-3,LLaMA-2,Mistral,Phi-3,Qwen-2を単一クエリ,複数クエリで比較した。
期待フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に限られており、ほとんどのオープンソース LLM は遅れている(Mistral や Phi-3 のような7B パラメータを除く)。
マルチクエリのプロンプトは,要約を満足する際の推論コストを大幅に最適化するのに有用である,と結論付けている。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-06T15:55:05Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。