論文の概要: I'm Afraid I Can't Do That: Predicting Prompt Refusal in Black-Box
Generative Language Models
- arxiv url: http://arxiv.org/abs/2306.03423v1
- Date: Tue, 6 Jun 2023 05:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 17:01:27.448571
- Title: I'm Afraid I Can't Do That: Predicting Prompt Refusal in Black-Box
Generative Language Models
- Title(参考訳): 残念ながら、それはできません:ブラックボックス生成言語モデルにおける即時拒否の予測
- Authors: Max Reuter, William Schulze
- Abstract要約: ブラックボックス攻撃を用いてChatGPTの拒絶動作を特徴付ける。
コンプライアンスのバイナリや拒否に対して,さまざまな応答をマップします。
本稿では,ChatGPTの応答を見ることなく,ChatGPTが質問を拒否するかどうかを予測するために,プロンプト分類器を訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the release of OpenAI's ChatGPT, generative language models have
attracted extensive public attention. The increased usage has highlighted
generative models' broad utility, but also revealed several forms of embedded
bias. Some is induced by the pre-training corpus; but additional bias specific
to generative models arises from the use of subjective fine-tuning to avoid
generating harmful content. Fine-tuning bias may come from individual engineers
and company policies, and affects which prompts the model chooses to refuse. In
this experiment, we characterize ChatGPT's refusal behavior using a black-box
attack. We first query ChatGPT with a variety of offensive and benign prompts
(n=1,730), then manually label each response as compliance or refusal. Manual
examination of responses reveals that refusal is not cleanly binary, and lies
on a continuum; as such, we map several different kinds of responses to a
binary of compliance or refusal. The small manually-labeled dataset is used to
train a refusal classifier, which achieves an accuracy of 92%. Second, we use
this refusal classifier to bootstrap a larger (n=10,000) dataset adapted from
the Quora Insincere Questions dataset. With this machine-labeled data, we train
a prompt classifier to predict whether ChatGPT will refuse a given question,
without seeing ChatGPT's response. This prompt classifier achieves 76% accuracy
on a test set of manually labeled questions (n=1,009). We examine our
classifiers and the prompt n-grams that are most predictive of either
compliance or refusal. Datasets and code are available at
https://github.com/maxwellreuter/chatgpt-refusals.
- Abstract(参考訳): OpenAIのChatGPTのリリース以来、生成言語モデルは広く注目を集めている。
利用の増加は生成モデルの広範な実用性を強調しているが、いくつかの形態の埋め込みバイアスも明らかにしている。
いくつかは事前学習コーパスによって引き起こされるが、生成モデルに特有の追加のバイアスは、有害なコンテンツを生成するのを避けるために主観的微調整を使用することから生じる。
微調整バイアスは、個々のエンジニアと企業のポリシーから生じ、モデルが拒否する方向に影響を及ぼす可能性がある。
本実験では,ブラックボックス攻撃によるChatGPTの拒絶動作を特徴付ける。
まずChatGPTにさまざまな攻撃的かつ良心的なプロンプト(n=1,730)を問い合わせ、それから手動で各レスポンスをコンプライアンスや拒否としてラベル付けします。
応答の手動検査は、拒絶はクリーンなバイナリではなく、連続体上にあることを示し、いくつかの異なる種類の応答をコンプライアンスや拒否のバイナリにマップする。
手動でラベルされた小さなデータセットは、拒絶分類器のトレーニングに使用され、精度は92%になる。
次に、この拒絶分類器を使用して、Quora Insincere Questionsデータセットから適合したより大きな(n=10,000)データセットをブートストラップします。
この機械ラベル付きデータを用いて、ChatGPTの応答を見ることなく、ChatGPTが与えられた質問を拒否するかどうかを予測するプロンプト分類器を訓練する。
このプロンプト分類器は、手動ラベル付き質問(n=1,009)のテストセットで76%の精度を達成する。
コンプライアンスや拒否を最も予測する分類器とn-gramのプロンプトについて検討した。
データセットとコードはhttps://github.com/maxwellreuter/chatgpt-refusalsで入手できる。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - "My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models [40.867655189493924]
言語生成のオープンな性質は、大規模言語モデル(LLM)の評価を困難にしている。
1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。
そこで本研究では,テキストの出力を数次元で評価する。
論文 参考訳(メタデータ) (2024-02-22T12:47:33Z) - Employing Label Models on ChatGPT Answers Improves Legal Text Entailment
Performance [5.484345596034158]
ChatGPTは多くの自然言語処理タスクにおいて堅牢である。
ラベルモデルを用いて、ChatGPTによる仮回答を統合ラベルに統合する。
実験の結果、このアプローチは76.15%の精度を達成でき、従来の最先端ベンチマークに比べて8.26%の大幅な改善が達成された。
論文 参考訳(メタデータ) (2024-01-31T15:04:01Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Combing for Credentials: Active Pattern Extraction from Smart Reply [15.097010165958027]
典型的なSmart Replyパイプラインにおける潜在的な情報漏洩脆弱性について検討する。
我々は、機密データを含むテキストの標準パターンを利用する新しいタイプのアクティブ抽出攻撃を導入する。
本研究では,現実的な設定であっても,学習データに含まれるセンシティブなユーザ情報を抽出することが可能であることを実験的に示す。
論文 参考訳(メタデータ) (2022-07-14T05:03:56Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based
Bias in NLP [10.936043362876651]
問題のあるテキストを生成するモデルの確率を減少させる復号アルゴリズムを提案する。
このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。
論文 参考訳(メタデータ) (2021-02-28T11:07:37Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。