論文の概要: SPADE: Synthesizing Assertions for Large Language Model Pipelines
- arxiv url: http://arxiv.org/abs/2401.03038v1
- Date: Fri, 5 Jan 2024 19:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:45:33.184780
- Title: SPADE: Synthesizing Assertions for Large Language Model Pipelines
- Title(参考訳): SPADE: 大規模言語モデルパイプラインのためのアサーションの合成
- Authors: Shreya Shankar, Haotian Li, Parth Asawa, Madelon Hulsebos, Yiming Lin,
J.D. Zamfirescu-Pereira, Harrison Chase, Will Fu-Hinthorn, Aditya G.
Parameswaran, Eugene Wu
- Abstract要約: SPADEは、悪いLCM出力を識別するアサーションを自動で合成する方法である。
9つの現実世界のLLMパイプラインをテストする場合、SPADEはアサーションの数を14%削減する。
- 参考スコア(独自算出の注目度): 15.901639346196413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Operationalizing large language models (LLMs) for custom, repetitive data
pipelines is challenging, particularly due to their unpredictable and
potentially catastrophic failures. Acknowledging the inevitability of these
errors, we focus on identifying when LLMs may be generating incorrect responses
when used repeatedly as part of data generation pipelines. We present SPADE, a
method for automatically synthesizing assertions that identify bad LLM outputs.
SPADE analyzes prompt version histories to create candidate assertion functions
and then selects a minimal set that fulfills both coverage and accuracy
requirements. In testing across nine different real-world LLM pipelines, SPADE
efficiently reduces the number of assertions by 14% and decreases false
failures by 21% when compared to simpler baselines.
- Abstract(参考訳): カスタムで反復的なデータパイプラインのための大規模言語モデル(llm)の運用は、特に予測不可能で破滅的な障害のために難しい。
これらのエラーの必然性を認識し、データ生成パイプラインの一部として繰り返し使用される際にllmが不正確な応答を発生させる可能性があるかを特定することに注力する。
悪質なLLM出力を識別するアサーションを自動的に合成するSPADEを提案する。
spadeはプロンプトバージョン履歴を分析して候補アサーション関数を作成し、カバレッジと精度の要件の両方を満たす最小セットを選択する。
9つの現実世界のllmパイプラインでテストする場合、spadeはアサーションの数を14%削減し、単純なベースラインと比較して21%削減する。
関連論文リスト
- MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。
既存のデータセットを LLM-AggreFact ベンチマークにまとめる。
我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大規模言語モデル(LLM)のための新しいRAGプロンプト手法を提案する。
重ね合わせプロンプトにより、LLMは入力文書を並列にプロンプトパスで処理でき、無関係と判断された後にパスを破棄する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。
提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文 参考訳(メタデータ) (2023-11-08T08:42:30Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - P-Adapters: Robustly Extracting Factual Information from Language Models
with Diverse Prompts [7.657992756210283]
埋め込み層と大規模言語モデルの第一の注意層の間に位置する軽量モデルであるP-Adaptersを紹介します。
LLMの埋め込みを入力とし、LLMに問い合わせるのに使用される連続的なプロンプトを出力する。
それらは、一貫性の12~26%の絶対的な改善と、自然言語クエリのみを使用するベースラインよりも36~50%の精度の絶対的な改善を示す。
論文 参考訳(メタデータ) (2021-10-14T11:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。