論文の概要: PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries
- arxiv url: http://arxiv.org/abs/2506.18728v1
- Date: Mon, 23 Jun 2025 15:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.04103
- Title: PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries
- Title(参考訳): PARALLELPROMPT:大規模言語モデルクエリから並列性を抽出する
- Authors: Steven Kolawole, Keshav Santhanam, Virginia Smith, Pratiksha Thaker,
- Abstract要約: 本稿では,自然ユーザプロンプトにおけるクエリ内並列性を測定する最初のベンチマークであるPARALLELPROMPTを紹介する。
我々のデータセットは、パブリックなLLMチャットログから37,000以上の実世界のプロンプトで構成されています。
並列戦略とシリアル戦略をベンチマークし、レイテンシ、構造的忠実度、セマンティック忠実度を計測する実行スイートを提供する。
- 参考スコア(独自算出の注目度): 16.40921376558516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM serving systems typically treat user prompts as monolithic inputs, optimizing inference through decoding tricks or inter-query batching. However, many real-world prompts contain latent semantic parallelism--decomposable structures where subtasks can be executed independently to reduce latency while preserving meaning. We introduce PARALLELPROMPT, the first benchmark for measuring intra-query parallelism in natural user prompts. Our dataset comprises over 37,000 real-world prompts from public LLM chat logs, each annotated with a structured schema capturing task templates, shared context, and iteration inputs. These schemas are extracted using LLM-assisted prompting with rule-based multilingual validation. To evaluate the benefits of decomposition, we provide an execution suite that benchmarks serial vs. parallel strategies, measuring latency, structural adherence, and semantic fidelity. Our results show that intra-query parallelism can be successfully parsed in over 75% of curated datasets, unlocking up to 5x speedups on tasks like translation, comprehension, and comparative analysis, with minimal quality degradation. By releasing this benchmark, curation pipeline, and evaluation suite, we provide the first standardized testbed for studying structure-aware execution in LLM serving pipelines.
- Abstract(参考訳): LLMサービスシステムは通常、ユーザプロンプトをモノリシックな入力として扱い、デコードトリックやクエリ間バッチによって推論を最適化する。
しかし、多くの現実世界のプロンプトは、意味を保ちながらレイテンシを低減するためにサブタスクを独立して実行できる、潜在的なセマンティック並列性を含む。
本稿では,自然ユーザプロンプトにおけるクエリ内並列性を測定する最初のベンチマークであるPARALLELPROMPTを紹介する。
我々のデータセットは、パブリックなLLMチャットログから37,000以上の実世界のプロンプトで構成されており、それぞれにタスクテンプレート、共有コンテキスト、イテレーション入力をキャプチャする構造化スキーマがアノテートされている。
これらのスキーマは、ルールベースの多言語検証によるLLM支援プロンプトを用いて抽出される。
分解の利点を評価するために,シリアルと並列戦略をベンチマークし,レイテンシ,構造的忠実度,意味的忠実度を計測する実行スイートを提供する。
以上の結果から,クエリ内並列処理を75%以上のキュレートデータセットで解析し,翻訳や理解,比較分析などのタスクにおいて最大5倍の高速化を実現し,品質劣化を最小限に抑えることができた。
このベンチマーク、キュレーションパイプライン、評価スイートをリリースすることにより、LLMサービスパイプラインにおける構造認識実行を研究するための、最初の標準化されたテストベッドを提供する。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding [26.571743941748238]
PASTAは、大規模言語モデルにセマンティックな独立性を識別し、独自の応答で並列デコーディングの機会を表現するための学習ベースのシステムである。
PASTA-Langは、LLMが自身の応答でセマンティックな独立性を表現することができるアノテーション言語である。
本研究は,2.2%から7.1%の品質変化を伴う1.21xから1.93xまでの幾何平均スピードアップを,逐次デコードベースラインに対する長さ制御ウィンドレートで測定した。
論文 参考訳(メタデータ) (2025-02-17T07:39:16Z) - LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。
これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。
これは複雑なタスクやデータに問題があります。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。