論文の概要: Do Biased Models Have Biased Thoughts?
- arxiv url: http://arxiv.org/abs/2508.06671v1
- Date: Fri, 08 Aug 2025 19:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.504349
- Title: Do Biased Models Have Biased Thoughts?
- Title(参考訳): バイアスドモデルにはバイアスド思想があるのか?
- Authors: Swati Rajwal, Shivank Garg, Reem Abdel-Salam, Abdelrahman Zayed,
- Abstract要約: 本稿では,モデルが応答する前のステップが公正性に与える影響について考察する。
質問に答えるために、フェアネスメトリクスを使用して5ドルのポピュラーな大言語モデルで実験を行い、モデルの思考と出力における11ドルの異なるバイアスを定量化します。
- 参考スコア(独自算出の注目度): 0.48212500317840945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive performance of language models is undeniable. However, the presence of biases based on gender, race, socio-economic status, physical appearance, and sexual orientation makes the deployment of language models challenging. This paper studies the effect of chain-of-thought prompting, a recent approach that studies the steps followed by the model before it responds, on fairness. More specifically, we ask the following question: \textit{Do biased models have biased thoughts}? To answer our question, we conduct experiments on $5$ popular large language models using fairness metrics to quantify $11$ different biases in the model's thoughts and output. Our results show that the bias in the thinking steps is not highly correlated with the output bias (less than $0.6$ correlation with a $p$-value smaller than $0.001$ in most cases). In other words, unlike human beings, the tested models with biased decisions do not always possess biased thoughts.
- Abstract(参考訳): 言語モデルの印象的なパフォーマンスは否定できない。
しかし、性別、人種、社会経済的地位、身体的外観、性的指向に基づくバイアスの存在は、言語モデルの展開を困難にしている。
本稿では,モデルが応答する前のステップが公正性に与える影響について考察する。
より具体的には、以下の質問をする: \textit{Do biased model have biased thoughts}?
質問に答えるために、フェアネスメトリクスを使用して5ドルのポピュラーな大言語モデルで実験を行い、モデルの思考と出力における11ドルの異なるバイアスを定量化します。
以上の結果から, 思考ステップのバイアスは出力バイアスと大きく相関しない(ほとんどの場合, 0.001$よりも小さい$p$値との相関が0.6$未満)。
言い換えれば、人間とは違って、偏った決定を持つテストされたモデルは必ずしも偏った考えを持っているとは限らない。
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs [3.5342505775640247]
ユーザが質問し、調査したいすべてのバイアスを選択できるWebデモであるOpinionGPTを提示する。
デモでは、選択されたバイアスのそれぞれを表すテキストに微調整されたモデルを使用して、この質問に答える。
基礎となるモデルをトレーニングするために、11の異なるバイアス(政治的、地理的、性別、年齢)を特定し、各回答がこれらの階層の1人によって書かれた指導学習コーパスを導出した。
論文 参考訳(メタデータ) (2023-09-07T17:41:01Z) - Argument from Old Man's View: Assessing Social Bias in Argumentation [20.65183968971417]
言語における社会的バイアスは多くのNLPアプリケーションに倫理的影響をもたらす。
最近の研究では、各データに基づいてトレーニングされた機械学習モデルが採用されるだけでなく、バイアスを増幅する可能性があることが示されている。
大規模な英語討論ポータルにおける社会的偏見の存在について検討する。
論文 参考訳(メタデータ) (2020-11-24T10:39:44Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。