論文の概要: ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context
- arxiv url: http://arxiv.org/abs/2407.06866v1
- Date: Tue, 9 Jul 2024 13:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:57:30.792179
- Title: ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context
- Title(参考訳): ChatGPTは充電器のファンを信頼していない: ガードレールの感度
- Authors: Victoria R. Li, Yida Chen, Naomi Saphra,
- Abstract要約: 本稿では,ユーザに関する情報がLCMの要求実行を拒否する可能性にどのように影響するかを検討する。
若年、女性、アジア系アメリカ人の人物は、検閲された情報や違法な情報を要求する際に、拒否するガードレールを発生させる傾向にある。
それぞれのカテゴリーやアメリカンフットボールチームでさえ、ChatGPTはおそらく政治的イデオロギーを推測しているようだ。
- 参考スコア(独自算出の注目度): 3.653721769378018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the biases of language models in production are extensively documented, the biases of their guardrails have been neglected. This paper studies how contextual information about the user influences the likelihood of an LLM to refuse to execute a request. By generating user biographies that offer ideological and demographic information, we find a number of biases in guardrail sensitivity on GPT-3.5. Younger, female, and Asian-American personas are more likely to trigger a refusal guardrail when requesting censored or illegal information. Guardrails are also sycophantic, refusing to comply with requests for a political position the user is likely to disagree with. We find that certain identity groups and seemingly innocuous information, e.g., sports fandom, can elicit changes in guardrail sensitivity similar to direct statements of political ideology. For each demographic category and even for American football team fandom, we find that ChatGPT appears to infer a likely political ideology and modify guardrail behavior accordingly.
- Abstract(参考訳): 生産中の言語モデルのバイアスは広範囲に記録されているが、ガードレールのバイアスは無視されている。
本稿では,ユーザに関する情報がLCMの要求実行を拒否する可能性にどのように影響するかを検討する。
GPT-3.5では,イデオロギーや人口統計情報を提供するユーザ伝記を生成することで,ガードレールの感度に多くのバイアスが生じる。
若年、女性、アジア系アメリカ人の人物は、検閲された情報や違法な情報を要求する際に、拒否するガードレールを発生させる傾向にある。
ガードレールもサイコファンであり、ユーザーが反対する可能性が高い政治的立場の要求に従わない。
特定のアイデンティティグループや一見無害な情報、例えばスポーツファンダムは、政治的イデオロギーの直接的な言明に類似したガードレール感度の変化を誘発することができる。
それぞれのカテゴリーやアメリカンフットボールチームでさえ、ChatGPTは政治的イデオロギーを推測し、それに応じてガードレールの振る舞いを修正しているように見える。
関連論文リスト
- RogueGPT: dis-ethical tuning transforms ChatGPT4 into a Rogue AI in 158 Words [0.0]
本稿では、ChatGPTのデフォルトの倫理的ガードレールが、最新のカスタマイズ機能を使っていかに簡単にバイパスできるかを考察する。
この変化したChatGPTは「RogueGPT」とあだ名され、心配な行動に反応した。
我々の発見は、違法薬物生産、拷問方法、テロリズムといったトピックに関するモデルの知識に関する重要な懸念を提起する。
論文 参考訳(メタデータ) (2024-06-11T18:59:43Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Detecting and Reasoning of Deleted Tweets before they are Posted [5.300190188468289]
削除されたツイート、特にアラビアの文脈内で識別し、それに対応するきめ細かい偽情報カテゴリにラベル付けします。
次に、削除されるツイートの可能性を予測できるモデルを開発します。
論文 参考訳(メタデータ) (2023-05-05T08:25:07Z) - Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.53559226972413]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。
一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。
その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,世代間の毒性が著しく向上することが判明した。
論文 参考訳(メタデータ) (2023-04-11T16:53:54Z) - COFFEE: Counterfactual Fairness for Personalized Text Generation in
Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。
説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-14T02:29:10Z) - Meaningful Context, a Red Flag, or Both? Users' Preferences for Enhanced
Misinformation Warnings on Twitter [6.748225062396441]
本研究では,ソーシャルメディア上での誤情報のソフトモデレーションにおけるユーザ調整による改善を提案する。
私たちは337人の参加者によるユーザビリティ調査で、Twitterのオリジナルの警告タグを使ってA/B評価を実行しました。
参加者の大多数は、誤報の認識と回避に苦慮した。
論文 参考訳(メタデータ) (2022-05-02T22:47:49Z) - "Gettr-ing" Deep Insights from the Social Network Gettr [10.667165962654996]
Gettrは、陰謀説と認識された「左」に対する攻撃と混ざった反トランプのコンテンツをホストしている
ソーシャルネットワークの構造は非対称であり、著名な右派リーダーを中心にしている。
右利きのユーザーは、主流プラットフォームによる言論の自由が認識された結果、Gettrに参加したが、左利きのユーザーは「誤報に目を覚ます」ためにこれをフォローした。
論文 参考訳(メタデータ) (2022-04-08T13:34:57Z) - News consumption and social media regulations policy [70.31753171707005]
我々は、ニュース消費とコンテンツ規制の間の相互作用を評価するために、反対のモデレーション手法であるTwitterとGabを強制した2つのソーシャルメディアを分析した。
以上の結果から,Twitterが追求するモデレーションの存在は,疑わしいコンテンツを著しく減少させることがわかった。
Gabに対する明確な規制の欠如は、ユーザが両方のタイプのコンテンツを扱う傾向を生じさせ、ディスカウント/エンドレスメントの振る舞いを考慮に入れた疑わしいコンテンツに対してわずかに好みを示す。
論文 参考訳(メタデータ) (2021-06-07T19:26:32Z) - Backdoor Attack against Speaker Verification [86.43395230456339]
学習データを汚染することにより,話者検証モデルに隠れたバックドアを注入できることを示す。
また,既存のバックドア攻撃が話者認証攻撃に直接適用できないことも実証した。
論文 参考訳(メタデータ) (2020-10-22T11:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。