論文の概要: CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs
- arxiv url: http://arxiv.org/abs/2510.09871v1
- Date: Fri, 10 Oct 2025 21:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.658446
- Title: CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs
- Title(参考訳): CoBia: 構築された会話は、それ以外はLLMのソシエタルビアーゼをトリガーできる
- Authors: Nafiseh Nikeghbal, Amir Hossein Kargaran, Jana Diesner,
- Abstract要約: CoBiaは、大規模言語モデルが規範的または倫理的行動から逸脱する条件の範囲を洗練できる軽量な敵攻撃スイートである。
CoBiaは、モデルが社会的グループに関する偏見のある主張を発話する、構築された会話を生成する。
次に,モデルが生成したバイアスクレームから回復可能かどうかを評価し,バイアス付きフォローアップ質問を拒否する。
- 参考スコア(独自算出の注目度): 10.340166874690578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improvements in model construction, including fortified safety guardrails, allow Large language models (LLMs) to increasingly pass standard safety checks. However, LLMs sometimes slip into revealing harmful behavior, such as expressing racist viewpoints, during conversations. To analyze this systematically, we introduce CoBia, a suite of lightweight adversarial attacks that allow us to refine the scope of conditions under which LLMs depart from normative or ethical behavior in conversations. CoBia creates a constructed conversation where the model utters a biased claim about a social group. We then evaluate whether the model can recover from the fabricated bias claim and reject biased follow-up questions. We evaluate 11 open-source as well as proprietary LLMs for their outputs related to six socio-demographic categories that are relevant to individual safety and fair treatment, i.e., gender, race, religion, nationality, sex orientation, and others. Our evaluation is based on established LLM-based bias metrics, and we compare the results against human judgments to scope out the LLMs' reliability and alignment. The results suggest that purposefully constructed conversations reliably reveal bias amplification and that LLMs often fail to reject biased follow-up questions during dialogue. This form of stress-testing highlights deeply embedded biases that can be surfaced through interaction. Code and artifacts are available at https://github.com/nafisenik/CoBia.
- Abstract(参考訳): 強化された安全ガードレールを含むモデル構築の改善により、大型言語モデル(LLM)は標準安全チェックをパスしやすくなった。
しかし、LLMは会話中に人種差別的視点を表現するなどの有害な行動を明らかにする。
これを体系的に分析するために,LLMが会話における規範的行動や倫理的行動から外れる条件の範囲を洗練できる,軽量な敵攻撃群であるCoBiaを紹介した。
CoBiaは、モデルが社会的グループに関する偏見のある主張を発話する、構築された会話を生成する。
次に,モデルが生成したバイアスクレームから回復可能かどうかを評価し,バイアス付きフォローアップ質問を拒否する。
我々は、性別、人種、宗教、国籍、性的指向など、個人の安全と公正な待遇に関連する6つのカテゴリに関連するアウトプットについて、11のオープンソースとプロプライエタリなLCMを評価した。
評価は, LLMの信頼性とアライメントを網羅するため, 確立したLLMに基づくバイアス指標に基づいて, 人的判断との比較を行った。
その結果、意図的に会話を構築すれば、バイアスの増幅が確実に明らかになり、LLMは対話中にバイアス付きフォローアップ質問を拒否することができないことが示唆された。
ストレステストのこの形態は、相互作用を通して表面化できる深く埋め込まれたバイアスを強調します。
コードとアーティファクトはhttps://github.com/nafisenik/CoBia.comで入手できる。
関連論文リスト
- DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。
我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文 参考訳(メタデータ) (2025-05-15T06:53:37Z) - Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings [18.318232025355524]
既存のデータセットBBQをOpen-BBQに拡張し、オープンエンド環境でのLCMの社会的バイアスを評価する。
文や段落をラベル付けすることで,オープンなコンテンツからバイアスを検出する評価手法を開発した。
この問題を解決するために、構造化例と明示的な連鎖推論を組み合わせたICL法であるComposite Promptingを提案する。
論文 参考訳(メタデータ) (2024-12-09T01:29:47Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。