Fugu-MT 論文翻訳(概要): SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines

論文の概要: SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines

arxiv url: http://arxiv.org/abs/2401.03038v2
Date: Sun, 31 Mar 2024 20:51:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 14:25:45.427026
Title: SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines
Title（参考訳）: SPADE: 大規模言語モデルパイプラインのためのデータ品質アサーションの合成
Authors: Shreya Shankar, Haotian Li, Parth Asawa, Madelon Hulsebos, Yiming Lin, J. D. Zamfirescu-Pereira, Harrison Chase, Will Fu-Hinthorn, Aditya G. Parameswaran, Eugene Wu,
Abstract要約: 本研究では,データ品質アサーションを自動的に合成するSPADEを提案する。 9つの現実世界のLLMパイプラインをテストする場合、SPADEはアサーションの数を14%削減する。
参考スコア（独自算出の注目度）: 15.389579061898429
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are being increasingly deployed as part of pipelines that repeatedly process or generate data of some sort. However, a common barrier to deployment are the frequent and often unpredictable errors that plague LLMs. Acknowledging the inevitability of these errors, we propose {\em data quality assertions} to identify when LLMs may be making mistakes. We present SPADE, a method for automatically synthesizing data quality assertions that identify bad LLM outputs. We make the observation that developers often identify data quality issues during prototyping prior to deployment, and attempt to address them by adding instructions to the LLM prompt over time. SPADE therefore analyzes histories of prompt versions over time to create candidate assertion functions and then selects a minimal set that fulfills both coverage and accuracy requirements. In testing across nine different real-world LLM pipelines, SPADE efficiently reduces the number of assertions by 14\% and decreases false failures by 21\% when compared to simpler baselines. SPADE has been deployed as an offering within LangSmith, LangChain's LLM pipeline hub, and has been used to generate data quality assertions for over 2000 pipelines across a spectrum of industries.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ある種のデータを繰り返し処理または生成するパイプラインの一部として、ますますデプロイされている。しかしながら、デプロイメントの一般的な障壁は、LSMを悩ませる頻繁で予測不可能なエラーである。これらの誤りの必然性を認識して、LCMがいつ間違いを犯しているのかを特定するために、データ品質のアサーションを提案する。本研究では,データ品質アサーションの自動合成手法であるSPADEについて述べる。開発者は、デプロイ前にプロトタイピング中にしばしばデータ品質の問題を特定し、LLMプロンプトにインストラクションを追加して対処しようとする。 SPADEは、プロンプトバージョンの履歴を分析して、候補アサーション関数を生成し、カバー範囲と精度の両方を満たす最小限のセットを選択する。実世界の9つのLLMパイプラインのテストにおいて、SPADEはより単純なベースラインと比較して、アサーションの数を14\%削減し、偽の失敗を21\%削減する。 SPADEはLangChainのLLMパイプラインハブであるLangSmith内で提供され、さまざまな産業で2000以上のパイプラインのデータ品質アサーションを生成するために使用されている。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Synthesizing and Adapting Error Correction Data for Mobile Large Language Model Applications [5.713077600587505]
大規模言語モデル(LLM)を用いて,誤り訂正ペアの高品質データセットを合成する。次に、サンプルを再重み付けすることで、モバイルアプリケーション領域に適合するように合成データ分布を適用する。オフライン評価と実運用実運用A/Bテストの両方において, 誤り訂正におけるモデル性能を向上させるために, 合成データを他のデータソースと混合するベストプラクティスを提案する。
論文参考訳（メタデータ） (2025-05-24T03:27:20Z)
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines [0.8148009849453334]
大規模言語モデル(LLM)は、さまざまなドメインにまたがる特殊な実運用データ処理パイプラインに、ますます多くデプロイされている。これらのアプリケーションの信頼性を向上させるためには、パイプラインと一緒に動作するLCM出力のアサーションやガードレールを作成することが不可欠である。本稿では,2087のパイプラインプロンプトのデータセットであるPrompTEVALSについて,12623のアサーション基準で紹介する。
論文参考訳（メタデータ） (2025-04-20T21:04:23Z)
Are Large Language Models Good Data Preprocessors? [5.954202581988127]
高品質なテキストトレーニングデータは、マルチモーダルデータ処理タスクの成功に不可欠である。 BLIPやGITのような画像キャプションモデルからの出力は、しばしばルールベースの手法で修正が難しいエラーや異常を含む。
論文参考訳（メタデータ） (2025-02-24T02:57:21Z)
LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。 LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-01-28T03:18:48Z)
Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。重要な課題は、時に事実的に誤った答えを生じさせることである。本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:59:48Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection [8.22737389683156]
大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。 LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文参考訳（メタデータ） (2024-04-10T11:03:17Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。 SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文参考訳（メタデータ） (2023-10-01T17:59:20Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
P-Adapters: Robustly Extracting Factual Information from Language Models with Diverse Prompts [7.657992756210283]
埋め込み層と大規模言語モデルの第一の注意層の間に位置する軽量モデルであるP-Adaptersを紹介します。 LLMの埋め込みを入力とし、LLMに問い合わせるのに使用される連続的なプロンプトを出力する。それらは、一貫性の12～26%の絶対的な改善と、自然言語クエリのみを使用するベースラインよりも36～50%の精度の絶対的な改善を示す。
論文参考訳（メタデータ） (2021-10-14T11:32:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。