論文の概要: Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails
- arxiv url: http://arxiv.org/abs/2508.18384v1
- Date: Mon, 25 Aug 2025 18:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.546731
- Title: Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails
- Title(参考訳): バックプロンピング:医療機器ガードレールの合成生産データを活用する
- Authors: Kellen Tan Cheng, Anna Lisa Gentile, Chad DeLuca, Guang-Jie Ren,
- Abstract要約: ガードレール技術は、大きな言語モデルの入力/出力テキストを様々な検出器を通してフィルタリングすることで、このリスクを軽減することを目的としている。
本稿では、健康アドバイスガードレールの開発のために、プロダクションライクなラベル付きデータを生成するための、シンプルで直感的なバックプロンプティングを提案する。
我々の検出器は400倍のパラメータを持つにもかかわらず、GPT-4oを最大3.73%上回ることができる。
- 参考スコア(独自算出の注目度): 3.705307230188557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pervasiveness of large language models (LLMs) in enterprise settings has also brought forth a significant amount of risks associated with their usage. Guardrails technologies aim to mitigate this risk by filtering LLMs' input/output text through various detectors. However, developing and maintaining robust detectors faces many challenges, one of which is the difficulty in acquiring production-quality labeled data on real LLM outputs prior to deployment. In this work, we propose backprompting, a simple yet intuitive solution to generate production-like labeled data for health advice guardrails development. Furthermore, we pair our backprompting method with a sparse human-in-the-loop clustering technique to label the generated data. Our aim is to construct a parallel corpus roughly representative of the original dataset yet resembling real LLM output. We then infuse existing datasets with our synthetic examples to produce robust training data for our detector. We test our technique in one of the most difficult and nuanced guardrails: the identification of health advice in LLM output, and demonstrate improvement versus other solutions. Our detector is able to outperform GPT-4o by up to 3.73%, despite having 400x less parameters.
- Abstract(参考訳): エンタープライズ環境での大規模言語モデル(LLM)の普及は、その使用にまつわる重大なリスクも生み出している。
ガードレール技術は、LSMの入力/出力テキストを様々な検出器を通してフィルタリングすることで、このリスクを軽減することを目的としている。
しかし、ロバスト検出器の開発と保守は多くの課題に直面しており、その1つは、実際のLCM出力で生産品質の高いラベル付きデータを取得するのが困難である。
本研究は,医療アドバイスガードレール開発のための,生産ライクなラベル付きデータを生成するための,シンプルかつ直感的な手法であるバックプロンプティングを提案する。
さらに,バックプロンプティング手法と疎密なヒューマン・イン・ザ・ループクラスタリング手法を組み合わせ,生成したデータをラベル付けする。
我々の目的は、実際のLLM出力に類似しない元のデータセットを大まかに表現した並列コーパスを構築することである。
次に、既存のデータセットに合成サンプルを注入して、検出器のための堅牢なトレーニングデータを生成します。
我々は,LSM出力における健康アドバイスの同定と,他のソリューションに対する改善の実証という,最も困難かつ曖昧なガードレールの1つを用いて,我々の手法を検証した。
我々の検出器は400倍のパラメータを持つにもかかわらず、GPT-4oを最大3.73%上回ることができる。
関連論文リスト
- Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - ASTRAL: Automated Safety Testing of Large Language Models [6.1050306667733185]
大規模言語モデル(LLM)は、人間のような洗練されたコンテンツを理解し、生成する能力によって最近注目を集めている。
LLMの安全性をテストするためのテストケース(即ちプロンプト)の生成と実行を自動化するツールであるASTRALを提案する。
論文 参考訳(メタデータ) (2025-01-28T18:25:11Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。