論文の概要: Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs
- arxiv url: http://arxiv.org/abs/2502.01436v1
- Date: Mon, 03 Feb 2025 15:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:33.817013
- Title: Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs
- Title(参考訳): Safer Chatbots: カスタムGPTのポリシーコンプライアンス評価フレームワーク
- Authors: David Rodriguez, William Seymour, Jose M. Del Alamo, Jose Such,
- Abstract要約: オープンAIの利用ポリシーに対するカスタムGPTの自動評価のためのフレームワークを提案する。
我々は,ロマン主義,サイバーセキュリティ,アカデミックGPTの3つのカテゴリにまたがって,722のカスタムGPTを用いた大規模研究を通じて評価を行った。
その結果、分析されたモデルの58.7%は、非準拠の兆候を示し、GPTストアのレビューと承認プロセスの弱点を明らかにしていることが明らかとなった。
- 参考スコア(独自算出の注目度): 7.687215328455751
- License:
- Abstract: Large Language Models (LLMs) have gained unprecedented prominence, achieving widespread adoption across diverse domains and integrating deeply into society. The capability to fine-tune general-purpose LLMs, such as Generative Pre-trained Transformers (GPT), for specific tasks has facilitated the emergence of numerous Custom GPTs. These tailored models are increasingly made available through dedicated marketplaces, such as OpenAI's GPT Store. However, their black-box nature introduces significant safety and compliance risks. In this work, we present a scalable framework for the automated evaluation of Custom GPTs against OpenAI's usage policies, which define the permissible behaviors of these systems. Our framework integrates three core components: (1) automated discovery and data collection of models from the GPT store, (2) a red-teaming prompt generator tailored to specific policy categories and the characteristics of each target GPT, and (3) an LLM-as-a-judge technique to analyze each prompt-response pair for potential policy violations. We validate our framework with a manually annotated ground truth, and evaluate it through a large-scale study with 782 Custom GPTs across three categories: Romantic, Cybersecurity, and Academic GPTs. Our manual annotation process achieved an F1 score of 0.975 in identifying policy violations, confirming the reliability of the framework's assessments. The results reveal that 58.7% of the analyzed models exhibit indications of non-compliance, exposing weaknesses in the GPT store's review and approval processes. Furthermore, our findings indicate that a model's popularity does not correlate with compliance, and non-compliance issues largely stem from behaviors inherited from base models rather than user-driven customizations. We believe this approach is extendable to other chatbot platforms and policy domains, improving LLM-based systems safety.
- Abstract(参考訳): 大規模言語モデル (LLM) は、様々な領域で広く採用され、社会に深く統合され、前例のない名声を得た。
特定のタスクに対して生成事前学習変換(GPT)などの汎用LLMを微調整する能力は、多数のカスタムGPTの出現を助長している。
これらのカスタマイズされたモデルは、OpenAIのGPTストアのような専用マーケットプレースを通じて、ますます利用できるようになる。
しかし、ブラックボックスの性質は、重大な安全性とコンプライアンスのリスクをもたらす。
本稿では,OpenAIの利用方針に対するカスタム GPT の自動評価のためのスケーラブルなフレームワークを提案する。
本フレームワークは,(1)GPTストアからのモデルの自動発見とデータ収集,(2)特定のポリシーカテゴリと各ターゲットGPTの特徴に合わせたリピートプロンプトジェネレータ,(3)LLM-as-a-judgeによる各プロンプト-レスポンスペアの潜在的なポリシー違反の分析,という3つのコアコンポーネントを統合している。
我々は,この枠組みを手動で注釈付き地上真実で検証し,ロマン主義,サイバーセキュリティ,アカデミックGPTの3つのカテゴリにまたがる,722のカスタムGPTを用いた大規模研究を通じて評価する。
手動のアノテーション処理は、ポリシー違反の特定においてF1スコア0.975を達成し、フレームワークの評価の信頼性を確認した。
その結果、分析されたモデルの58.7%は、非準拠の兆候を示し、GPTストアのレビューと承認プロセスの弱点を明らかにしていることが明らかとなった。
さらに, モデルの人気はコンプライアンスと相関せず, 非コンプライアンス問題は, ユーザ主導のカスタマイズではなく, ベースモデルから受け継がれた行動に起因していることが示唆された。
このアプローチは他のチャットボットプラットフォームやポリシドメインにも拡張可能であり、LLMベースのシステムの安全性が向上すると考えています。
関連論文リスト
- Privacy Policy Analysis through Prompt Engineering for LLMs [3.059256166047627]
PAPEL (Privacy Policy Analysis through Prompt Engineering for LLMs) は、Large Language Models (LLMs) の力を利用してプライバシーポリシーの分析を自動化するフレームワークである。
これらのポリシーからの情報の抽出、アノテーション、要約を合理化し、追加のモデルトレーニングを必要とせず、アクセシビリティと理解性を高めることを目的としている。
PAPELの有効性を, (i) アノテーションと (ii) 矛盾解析の2つの応用で実証した。
論文 参考訳(メタデータ) (2024-09-23T10:23:31Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - GPT Store Mining and Analysis [4.835306415626808]
GPTストアは、GPT(Generative Pre-trained Transformer)モデルのマーケットプレースとして機能している。
本研究は、GPTの分類、GPTの人気に影響を与える要因、潜在的なセキュリティリスクに焦点をあてる。
我々の研究は、GPTエコシステムの理解を深め、生成型AIの今後の研究、開発、政策立案に有用な洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2024-05-16T16:00:35Z) - Opening A Pandora's Box: Things You Should Know in the Era of Custom GPTs [27.97654690288698]
我々はOpenAIによるカスタムGPTプラットフォームから生じるセキュリティとプライバシの問題を包括的に分析する。
本研究は,攻撃シナリオを悪質なアクターの役割に基づいた3つの脅威モデルに分類する。
我々は26の潜在的な攻撃ベクトルを特定し、19は実世界の環境で部分的にまたは完全に検証されている。
論文 参考訳(メタデータ) (2023-12-31T16:49:12Z) - Client-side Gradient Inversion Against Federated Learning from Poisoning [59.74484221875662]
フェデレートラーニング(FL)により、分散参加者は、データを中央サーバに直接共有することなく、グローバルモデルをトレーニングできる。
近年の研究では、FLは元のトレーニングサンプルの再構築を目的とした勾配反転攻撃(GIA)に弱いことが判明している。
本稿では,クライアント側から起動可能な新たな攻撃手法であるクライアント側中毒性グレーディエント・インバージョン(CGI)を提案する。
論文 参考訳(メタデータ) (2023-09-14T03:48:27Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。