論文の概要: First-Person Fairness in Chatbots
- arxiv url: http://arxiv.org/abs/2410.19803v2
- Date: Mon, 03 Mar 2025 15:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 15:10:46.500407
- Title: First-Person Fairness in Chatbots
- Title(参考訳): チャットボットにおける初対人フェアネス
- Authors: Tyna Eloundou, Alex Beutel, David G. Robinson, Keren Gu-Lemberg, Anna-Luisa Brakman, Pamela Mishkin, Meghan Shah, Johannes Heidecke, Lilian Weng, Adam Tauman Kalai,
- Abstract要約: 第一対人公正性」を評価するためのスケーラブルな対実的アプローチを導入する。
このアプローチを適用して、数百万のインタラクションにまたがる6つの言語モデルのバイアスを評価する。
本研究は,実世界のチャットデータに基づく,初めての大規模公正度評価である。
- 参考スコア(独自算出の注目度): 13.787745105316043
- License:
- Abstract: Evaluating chatbot fairness is crucial given their rapid proliferation, yet typical chatbot tasks (e.g., resume writing, entertainment) diverge from the institutional decision-making tasks (e.g., resume screening) which have traditionally been central to discussion of algorithmic fairness. The open-ended nature and diverse use-cases of chatbots necessitate novel methods for bias assessment. This paper addresses these challenges by introducing a scalable counterfactual approach to evaluate "first-person fairness," meaning fairness toward chatbot users based on demographic characteristics. Our method employs a Language Model as a Research Assistant (LMRA) to yield quantitative measures of harmful stereotypes and qualitative analyses of demographic differences in chatbot responses. We apply this approach to assess biases in six of our language models across millions of interactions, covering sixty-six tasks in nine domains and spanning two genders and four races. Independent human annotations corroborate the LMRA-generated bias evaluations. This study represents the first large-scale fairness evaluation based on real-world chat data. We highlight that post-training reinforcement learning techniques significantly mitigate these biases. This evaluation provides a practical methodology for ongoing bias monitoring and mitigation.
- Abstract(参考訳): チャットボットのフェアネスを評価することは、その急速な普及にともなって重要であるが、一般的なチャットボットタスク(例:書き直し、エンターテイメント)は、伝統的にアルゴリズムのフェアネスに関する議論の中心であった制度的な意思決定タスク(例:スクリーニングの再開)から切り離されている。
チャットボットのオープンエンドの性質と多様なユースケースは、バイアス評価のための新しい方法を必要とする。
本稿では,チャットボットユーザに対する公平さを,人口統計学的特徴に基づいて評価する,スケーラブルな対実的アプローチを導入することで,これらの課題に対処する。
提案手法では,言語モデルを用いて有害なステレオタイプを定量的に測定し,チャットボット応答の統計学的差異を定性的に解析する。
このアプローチを適用して、数百万のインタラクションにまたがる6つの言語モデルのバイアスを評価し、9つのドメインで6つのタスクをカバーし、2つの性別と4つのレースにまたがる。
独立な人間のアノテーションは、LMRAが生成するバイアス評価を裏付ける。
本研究は,実世界のチャットデータに基づく,初めての大規模公正度評価である。
トレーニング後の強化学習技術がこれらのバイアスを著しく軽減する点を強調した。
この評価は、進行中のバイアスモニタリングと緩和のための実践的な方法論を提供する。
関連論文リスト
- RICoTA: Red-teaming of In-the-wild Conversation with Test Attempts [6.0385743836962025]
RICoTAは、大言語モデル(LLM)に挑戦する609のプロンプトで構成される、韓国のレッドチームデータセットである。
われわれは、韓国のRedditのようなコミュニティに自己投稿されたユーザー・チャットボットの会話を活用している。
データセットはGitHubから公開されます。
論文 参考訳(メタデータ) (2025-01-29T15:32:27Z) - Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards [93.16294577018482]
このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。
攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。
私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
論文 参考訳(メタデータ) (2025-01-13T17:12:38Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - How Prevalent is Gender Bias in ChatGPT? -- Exploring German and English ChatGPT Responses [0.20971479389679337]
私たちは、ChatGPTが、IT以外のユーザが日々の作業のためにテキストをドラフトするのに役立つことを示しています。
システムの応答をバイアスだけでなく、構文的および文法的ミスに対して徹底的にチェックすることが極めて重要です。
論文 参考訳(メタデータ) (2023-09-21T07:54:25Z) - Adding guardrails to advanced chatbots [5.203329540700177]
2022年11月にChatGPTがローンチされ、AIの新しい時代が到来した。
さまざまな仕事のために、人間がチャットボットに取って代わられるのではないか、という懸念はすでにある。
これらのバイアスは、異なるサブポピュレーションに対して重大な害および/または不平等を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-06-13T02:23:04Z) - Understanding How People Rate Their Conversations [73.17730062864314]
我々は、人々が会話エージェントとのインタラクションをどのように評価するかをよりよく理解するために研究を行う。
我々は、評価の変動を説明する変数として、同意性と外向性に焦点を当てる。
論文 参考訳(メタデータ) (2022-06-01T00:45:32Z) - One Chatbot Per Person: Creating Personalized Chatbots based on Implicit
User Profiles [31.432585994256375]
既存のパーソナライズされたアプローチは、いくつかのテキスト記述を明示的なユーザプロファイルとして組み込もうとした。
我々は、ユーザの履歴応答から一般ユーザプロファイルを構築するために、パーソナライズされた言語モデルを訓練する。
我々は、汎用語彙から単語を生成し、ユーザのパーソナライズされた語彙から1単語をコピーする2つのデコード戦略を融合するパーソナライズされたデコーダを設計する。
論文 参考訳(メタデータ) (2021-08-20T20:33:12Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Personalized Chatbot Trustworthiness Ratings [19.537492400265577]
我々は、各問題に対する個別の格付けモジュールに依存するチャットボットのためのパーソナライズされた格付け手法を構想する。
この方法は、特定の信頼問題とは独立しており、集計手順にパラメトリックである。
論文 参考訳(メタデータ) (2020-05-13T22:42:45Z) - A Neural Topical Expansion Framework for Unstructured Persona-oriented
Dialogue Generation [52.743311026230714]
Persona Exploration and Exploitation (PEE)は、事前に定義されたユーザペルソナ記述を意味論的に相関したコンテンツで拡張することができる。
PEEはペルソナ探索とペルソナ搾取という2つの主要なモジュールで構成されている。
提案手法は, 自動評価と人的評価の両面で, 最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-06T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。