Fugu-MT 論文翻訳(概要): PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries

論文の概要: PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries

arxiv url: http://arxiv.org/abs/2506.18728v1
Date: Mon, 23 Jun 2025 15:05:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:37.04103
Title: PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries
Title（参考訳）: PARALLELPROMPT:大規模言語モデルクエリから並列性を抽出する
Authors: Steven Kolawole, Keshav Santhanam, Virginia Smith, Pratiksha Thaker,
Abstract要約: 本稿では,自然ユーザプロンプトにおけるクエリ内並列性を測定する最初のベンチマークであるPARALLELPROMPTを紹介する。我々のデータセットは、パブリックなLLMチャットログから37,000以上の実世界のプロンプトで構成されています。並列戦略とシリアル戦略をベンチマークし、レイテンシ、構造的忠実度、セマンティック忠実度を計測する実行スイートを提供する。
参考スコア（独自算出の注目度）: 16.40921376558516
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM serving systems typically treat user prompts as monolithic inputs, optimizing inference through decoding tricks or inter-query batching. However, many real-world prompts contain latent semantic parallelism--decomposable structures where subtasks can be executed independently to reduce latency while preserving meaning. We introduce PARALLELPROMPT, the first benchmark for measuring intra-query parallelism in natural user prompts. Our dataset comprises over 37,000 real-world prompts from public LLM chat logs, each annotated with a structured schema capturing task templates, shared context, and iteration inputs. These schemas are extracted using LLM-assisted prompting with rule-based multilingual validation. To evaluate the benefits of decomposition, we provide an execution suite that benchmarks serial vs. parallel strategies, measuring latency, structural adherence, and semantic fidelity. Our results show that intra-query parallelism can be successfully parsed in over 75% of curated datasets, unlocking up to 5x speedups on tasks like translation, comprehension, and comparative analysis, with minimal quality degradation. By releasing this benchmark, curation pipeline, and evaluation suite, we provide the first standardized testbed for studying structure-aware execution in LLM serving pipelines.
Abstract（参考訳）: LLMサービスシステムは通常、ユーザプロンプトをモノリシックな入力として扱い、デコードトリックやクエリ間バッチによって推論を最適化する。しかし、多くの現実世界のプロンプトは、意味を保ちながらレイテンシを低減するためにサブタスクを独立して実行できる、潜在的なセマンティック並列性を含む。本稿では,自然ユーザプロンプトにおけるクエリ内並列性を測定する最初のベンチマークであるPARALLELPROMPTを紹介する。我々のデータセットは、パブリックなLLMチャットログから37,000以上の実世界のプロンプトで構成されており、それぞれにタスクテンプレート、共有コンテキスト、イテレーション入力をキャプチャする構造化スキーマがアノテートされている。これらのスキーマは、ルールベースの多言語検証によるLLM支援プロンプトを用いて抽出される。分解の利点を評価するために,シリアルと並列戦略をベンチマークし,レイテンシ,構造的忠実度,意味的忠実度を計測する実行スイートを提供する。以上の結果から,クエリ内並列処理を75%以上のキュレートデータセットで解析し,翻訳や理解,比較分析などのタスクにおいて最大5倍の高速化を実現し,品質劣化を最小限に抑えることができた。このベンチマーク、キュレーションパイプライン、評価スイートをリリースすることにより、LLMサービスパイプラインにおける構造認識実行を研究するための、最初の標準化されたテストベッドを提供する。

関連論文リスト

A Semantic Parsing Framework for End-to-End Time Normalization [10.472379345636845]
時間正規化は、自然言語の時間表現を機械可読表現に変換するタスクである。 ISO-TimeMLスキーマの制限表現に基づく従来のシステム。 SCATEフレームワークを基盤としたコード生成タスクとして,時間正規化の新たな定式化を導入する。
論文参考訳（メタデータ） (2025-07-08T23:30:11Z)
Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文参考訳（メタデータ） (2025-06-06T04:07:55Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
LLMSR@XLLM25: An Empirical Study of LLM for Structural Reasoning [6.700515856842664]
We present Team asdfo123's submit to the LLMSR@XLLM25 shared task。我々は、粒度、制御性、解釈可能な推論プロセスを生成する上で、大きな言語モデルを評価する。提案手法は, マクロF1スコアを, より複雑で資源消費の少ないパイプラインと同等に達成し, 総合5位にランク付けする。
論文参考訳（メタデータ） (2025-05-18T09:46:30Z)
Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding [26.571743941748238]
PASTAは、大規模言語モデルにセマンティックな独立性を識別し、独自の応答で並列デコーディングの機会を表現するための学習ベースのシステムである。 PASTA-Langは、LLMが自身の応答でセマンティックな独立性を表現することができるアノテーション言語である。本研究は,2.2%から7.1%の品質変化を伴う1.21xから1.93xまでの幾何平均スピードアップを,逐次デコードベースラインに対する長さ制御ウィンドレートで測定した。
論文参考訳（メタデータ） (2025-02-17T07:39:16Z)
LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。 LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-01-28T03:18:48Z)
DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。これは複雑なタスクやデータに問題があります。本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文参考訳（メタデータ） (2024-10-16T03:22:35Z)
ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models [46.07900122810749]
大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、評価は依然として難しい。既存のリレーショナルデータベースを利用することは、ベンチマークを構築する上で有望なアプローチである、と我々は主張する。我々は,これらの整合性制約を用いて任意のデータベースをLLMベンチマークに変換するERBenchを提案する。
論文参考訳（メタデータ） (2024-03-08T12:42:36Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)
Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-29T02:53:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。