Fugu-MT 論文翻訳(概要): BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models

論文の概要: BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models

arxiv url: http://arxiv.org/abs/2302.07371v3
Date: Wed, 6 Dec 2023 06:26:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 19:25:17.340453
Title: BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models
Title（参考訳）: BiasTestGPT: 言語モデルのソーシャルバイアステストにChatGPTを使用する
Authors: Rafal Kocielnik, Shrimai Prabhumoye, Vivian Zhang, Roy Jiang, R. Michael Alvarez, Anima Anandkumar
Abstract要約: テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
参考スコア（独自算出の注目度）: 73.29106813131818
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pretrained Language Models (PLMs) harbor inherent social biases that can result in harmful real-world implications. Such social biases are measured through the probability values that PLMs output for different social groups and attributes appearing in a set of test sentences. However, bias testing is currently cumbersome since the test sentences are generated either from a limited set of manual templates or need expensive crowd-sourcing. We instead propose using ChatGPT for the controllable generation of test sentences, given any arbitrary user-specified combination of social groups and attributes appearing in the test sentences. When compared to template-based methods, our approach using ChatGPT for test sentence generation is superior in detecting social bias, especially in challenging settings such as intersectional biases. We present an open-source comprehensive bias testing framework (BiasTestGPT), hosted on HuggingFace, that can be plugged into any open-source PLM for bias testing. User testing with domain experts from various fields has shown their interest in being able to test modern AI for social biases. Our tool has significantly improved their awareness of such biases in PLMs, proving to be learnable and user-friendly. We thus enable seamless open-ended social bias testing of PLMs by domain experts through an automatic large-scale generation of diverse test sentences for any combination of social categories and attributes.
Abstract（参考訳）: 事前訓練された言語モデル(plm)は、実世界の有害な影響をもたらす社会的バイアスを包含している。このような社会的バイアスは、plmが異なる社会グループと一連のテスト文に現れる属性に対して出力する確率値によって測定される。しかし、テスト文は限られた手動テンプレートから生成するか、高価なクラウドソーシングを必要とするため、現在バイアステストは面倒である。テスト文に現れる社会的グループと属性の任意のユーザ指定の組み合わせが与えられた場合,テスト文の制御可能な生成にchatgptを使用することを提案する。テンプレートベースの手法と比較して,テスト文生成にChatGPTを用いるアプローチは,特に交叉バイアスなどの困難な状況において,社会的バイアスの検出に優れている。本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。さまざまな分野の専門家によるユーザテストは、現代的なAIを社会的バイアスとしてテストできることに関心を示している。このツールはplmにおけるこのようなバイアスに対する認識を大幅に向上させ、学習可能でユーザフレンドリーであることを証明した。これにより,ソーシャルカテゴリと属性の組み合わせに対して,多種多様なテスト文の自動生成により,ドメインエキスパートによるplmのシームレスなオープンエンドなソーシャルバイアステストを可能にする。

関連論文リスト

Unveiling Assumptions: Exploring the Decisions of AI Chatbots and Human Testers [2.5327705116230477]
意思決定は、コード、要求仕様、その他のソフトウェアアーティファクトなど、さまざまな情報に依存します。不明瞭な情報によって残されたギャップを埋めるために、私たちはしばしば、前提や直観、あるいは以前の経験に頼って意思決定をします。
論文参考訳（メタデータ） (2024-06-17T08:55:56Z)
Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文参考訳（メタデータ） (2024-03-23T06:36:32Z)
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。実世界の3つの文脈から類似したRUTEd評価法を開発した。標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文参考訳（メタデータ） (2024-02-20T01:49:15Z)
SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in Generative Language Models [8.211129045180636]
我々は、生成言語モデルにおいて、シュティグマを通して、社会的偏見の増幅を捉えるためのベンチマークを導入する。私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデル堅牢性の両方をテストするために慎重に構築された、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。社会的に偏りのあるアウトプットの割合は、様々なデコード戦略やスタイルにまたがって45%から59%の範囲であることがわかった。
論文参考訳（メタデータ） (2023-12-12T18:27:44Z)
No More Manual Tests? Evaluating and Improving ChatGPT for Unit Test Generation [11.009117714870527]
単体テストは、機能的に分離されたプログラムユニットのバグを検出するのに不可欠である。最近の研究は、ユニットテスト生成における大きな言語モデル(LLM)の可能性を示している。 ChatGPTがユニット・テスト・ジェネレーションでどの程度有効かは不明だ。
論文参考訳（メタデータ） (2023-05-07T07:17:08Z)
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文参考訳（メタデータ） (2023-03-15T19:31:21Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文参考訳（メタデータ） (2022-10-18T17:58:39Z)
COFFEE: Counterfactual Fairness for Personalized Text Generation in Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文参考訳（メタデータ） (2022-10-14T02:29:10Z)
SODAPOP: Open-Ended Discovery of Social Biases in Social Commonsense Reasoning Models [22.13138599547492]
SODAPOP (Social bias Discovery from Answers about PeOPle) を提案する。ソーシャル・コモンセンス・モデルを用いて、生成された気晴らしをスコアリングすることで、人口動態群とオープンな単語群の間のステレオタイプ的関連を明らかにすることができる。また、脱バイアスモデル上でSODAPOPをテストし、複数の最先端脱バイアスアルゴリズムの限界を示す。
論文参考訳（メタデータ） (2022-10-13T18:04:48Z)
Identifying and Measuring Token-Level Sentiment Bias in Pre-trained Language Models with Prompts [7.510757198308537]
大規模事前訓練言語モデル(PLM)は、社会の多くの側面において広く採用されている。近年のプロンプトチューニングの進歩は, PLMの内部機構を探求する可能性を示している。我々は2つのトークンレベル感情テストを提案する: 感性アソシエーションテスト(SAT)と感性シフトテスト(SST)。
論文参考訳（メタデータ） (2022-04-15T02:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。