論文の概要: PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines
- arxiv url: http://arxiv.org/abs/2504.14738v1
- Date: Sun, 20 Apr 2025 21:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:23:43.964964
- Title: PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines
- Title(参考訳): PROMPTEVALS: カスタム生産型大規模言語モデルパイプラインのためのアサーションとガードレールのデータセット
- Authors: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまなドメインにまたがる特殊な実運用データ処理パイプラインに、ますます多くデプロイされている。
これらのアプリケーションの信頼性を向上させるためには、パイプラインと一緒に動作するLCM出力のアサーションやガードレールを作成することが不可欠である。
本稿では,2087のパイプラインプロンプトのデータセットであるPrompTEVALSについて,12623のアサーション基準で紹介する。
- 参考スコア(独自算出の注目度): 0.8148009849453334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in specialized production data processing pipelines across diverse domains -- such as finance, marketing, and e-commerce. However, when running them in production across many inputs, they often fail to follow instructions or meet developer expectations. To improve reliability in these applications, creating assertions or guardrails for LLM outputs to run alongside the pipelines is essential. Yet, determining the right set of assertions that capture developer requirements for a task is challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM pipeline prompts with 12623 corresponding assertion criteria, sourced from developers using our open-source LLM pipeline tools. This dataset is 5x larger than previous collections. Using a hold-out test split of PROMPTEVALS as a benchmark, we evaluated closed- and open-source models in generating relevant assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform GPT-4o by 20.93% on average, offering both reduced latency and improved performance. We believe our dataset can spur further research in LLM reliability, alignment, and prompt engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)は、金融、マーケティング、eコマースなど、さまざまな分野にわたる特殊な生産データ処理パイプラインに、ますます多くデプロイされている。
しかし、多くのインプットで本番環境で実行すると、指示に従うことも、開発者の期待に応えることもしばしば失敗する。
これらのアプリケーションの信頼性を向上させるためには、パイプラインと一緒に動作するLCM出力のアサーションやガードレールを作成することが不可欠である。
しかし、タスクの開発者要求をキャプチャする適切なアサーションセットを決定することは難しい。
本稿では,2087 LLMパイプラインのデータセットであるPrompTEVALSを紹介する。
このデータセットは、以前のコレクションよりも5倍大きい。
ProMPTEVALSのホールドアウトテスト分割をベンチマークとして、関連するアサーションを生成するために、クローズドおよびオープンソースモデルを評価した。
特に、微調整されたMistralとLlama 3はGPT-4oを平均で20.93%上回り、レイテンシの低減とパフォーマンスの向上を実現しています。
当社のデータセットは、LLMの信頼性、アライメント、迅速なエンジニアリングのさらなる研究を促進することができると考えています。
関連論文リスト
- Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。
我々はこの目的のために特別に設計されたアプローチである我々の提案する。
人類の専門家や 先進的なモデルによるデータに依存する 従来のアプローチと比べて 優れたパフォーマンスを達成しています
論文 参考訳(メタデータ) (2024-11-12T19:53:00Z) - DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。
これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。
これは複雑なタスクやデータに問題があります。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - Revisiting VerilogEval: A Year of Improvements in Large-Language Models for Hardware Code Generation [6.463959200930805]
オープンソースのVerilogEvalベンチマークのリリース以降,新しい商用およびオープンなモデルを評価する。
最先端のモデルでは測定可能な改善が得られます。
高いパスレートを達成するためには、迅速なエンジニアリングが不可欠であることに気付きました。
論文 参考訳(メタデータ) (2024-08-20T17:58:56Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines [15.389579061898429]
本研究では,データ品質アサーションを自動的に合成するSPADEを提案する。
9つの現実世界のLLMパイプラインをテストする場合、SPADEはアサーションの数を14%削減する。
論文 参考訳(メタデータ) (2024-01-05T19:27:58Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。